Friday, April 3, 2026

Google Unveils Gemma 4: A New Era of Multimodal Open-Source AI

Google Unveils Gemma 4: A New Era of Multimodal Open-Source AI


Google Unveils Gemma 4: A New Era of Multimodal Open-Source AI



Google has officially introduced Gemma 4, the latest evolution of its open-source model family, designed to push the boundaries of reasoning and agent-based workflows. 


This new generation follows the massive success of previous Gemma iterations, which have surpassed 400 million downloads. 


By focusing on higher performance per parameter, Google aims to provide developers with a tool that is both highly capable and efficient enough to run across diverse hardware environments, from handheld mobile devices to robust cloud infrastructures.


The Gemma 4 lineup is strategically tiered into four distinct configurations to meet varying technical needs. 


These include the Effective 2B (E2B) and Effective 4B (E4B) models, which are tailored for edge devices with limited memory, alongside a 26B Mixture of 


Experts variant for low-latency performance. 


For the most demanding tasks, the 31B Dense model sits at the top of the hierarchy, rivaling the performance of the world’s leading open-source benchmarks while maintaining a manageable compute footprint.


A standout feature of this release is its native multimodal capability, allowing the models to process image, video, and audio inputs alongside text. 


With context windows reaching up to 256K tokens, Gemma 4 can analyze massive datasets and lengthy documents with ease. 


Furthermore, the models support over 140 languages, ensuring that developers globally can build applications that are linguistically inclusive and culturally relevant.


Beyond simple text generation, Gemma 4 is engineered for complex agent workflows. 


It introduces advanced support for multi-step reasoning, structured outputs, and function calling—features that are essential for creating AI "agents" that can execute tasks autonomously. 


Whether it is generating code or performing intricate data analysis, the model is designed to function reliably in both online and offline (local) scenarios, providing a high degree of versatility for modern software development.


In a move to foster widespread innovation, Google has released Gemma 4 under the Apache 2.0 license, permitting unrestricted commercial use and modification. 


The models are immediately accessible through popular platforms like Hugging Face, Kaggle, and Google AI Studio. 


By ensuring compatibility with industry-standard tools such as vLLM and Transformers, Google is positioning Gemma 4 as the go-to open-source foundation for the next generation of AI-driven products.



गूगल ने Gemma 4 पेश किया: मल्टीमॉडल ओपन-सोर्स AI का एक नया दौर

गूगल ने ऑफिशियली Gemma 4 पेश किया है, जो इसके ओपन-सोर्स मॉडल फैमिली का लेटेस्ट इवोल्यूशन है, जिसे रीज़निंग और एजेंट-बेस्ड वर्कफ़्लो की सीमाओं को आगे बढ़ाने के लिए डिज़ाइन किया गया है।

यह नई जेनरेशन पिछले Gemma इटरेशन की ज़बरदस्त सफलता के बाद आई है, जिनके 400 मिलियन से ज़्यादा डाउनलोड हो चुके हैं।

हर पैरामीटर पर बेहतर परफॉर्मेंस पर फोकस करके, गूगल का मकसद डेवलपर्स को एक ऐसा टूल देना है जो हैंडहेल्ड मोबाइल डिवाइस से लेकर मज़बूत क्लाउड इंफ्रास्ट्रक्चर तक, अलग-अलग हार्डवेयर एनवायरनमेंट में चलने के लिए बहुत ज़्यादा कैपेबल और एफिशिएंट हो।

Gemma 4 लाइनअप को अलग-अलग टेक्निकल ज़रूरतों को पूरा करने के लिए स्ट्रेटेजिकली चार अलग-अलग कॉन्फ़िगरेशन में बांटा गया है।

इनमें इफेक्टिव 2B (E2B) और इफेक्टिव 4B (E4B) मॉडल शामिल हैं, जो कम मेमोरी वाले एज डिवाइस के लिए बनाए गए हैं, साथ ही कम-लेटेंसी परफॉर्मेंस के लिए 26B मिक्सचर ऑफ़ एक्सपर्ट्स वेरिएंट भी है।

 सबसे ज़्यादा मुश्किल कामों के लिए, 31B Dense मॉडल हायरार्की में सबसे ऊपर है, जो दुनिया के लीडिंग ओपन-सोर्स बेंचमार्क के परफॉर्मेंस को टक्कर देता है, साथ ही एक मैनेजेबल कंप्यूट फुटप्रिंट भी बनाए रखता है।

इस रिलीज़ का एक खास फीचर इसकी नेटिव मल्टीमॉडल कैपेबिलिटी है, जो मॉडल्स को टेक्स्ट के साथ इमेज, वीडियो और ऑडियो इनपुट को प्रोसेस करने देती है।

256K टोकन तक के कॉन्टेक्स्ट विंडो के साथ, Gemma 4 बड़े डेटासेट और लंबे डॉक्यूमेंट्स को आसानी से एनालाइज़ कर सकता है।

इसके अलावा, मॉडल 140 से ज़्यादा भाषाओं को सपोर्ट करते हैं, जिससे यह पक्का होता है कि दुनिया भर के डेवलपर्स ऐसे एप्लिकेशन बना सकें जो भाषा के हिसाब से समावेशी और कल्चर के हिसाब से काम के हों।

सिंपल टेक्स्ट जेनरेशन के अलावा, Gemma 4 को कॉम्प्लेक्स एजेंट वर्कफ़्लो के लिए इंजीनियर किया गया है।

यह मल्टी-स्टेप रीज़निंग, स्ट्रक्चर्ड आउटपुट और फंक्शन कॉलिंग के लिए एडवांस्ड सपोर्ट देता है—ये ऐसे फीचर हैं जो AI "एजेंट" बनाने के लिए ज़रूरी हैं जो अपने आप काम कर सकें।

 चाहे कोड बनाना हो या मुश्किल डेटा एनालिसिस करना हो, मॉडल को ऑनलाइन और ऑफलाइन (लोकल) दोनों सिनेरियो में भरोसेमंद तरीके से काम करने के लिए डिज़ाइन किया गया है, जो मॉडर्न सॉफ्टवेयर डेवलपमेंट के लिए बहुत ज़्यादा वर्सेटिलिटी देता है।

बड़े पैमाने पर इनोवेशन को बढ़ावा देने के लिए, Google ने Gemma 4 को Apache 2.0 लाइसेंस के तहत रिलीज़ किया है, जिससे बिना किसी रोक-टोक के कमर्शियल इस्तेमाल और मॉडिफिकेशन की इजाज़त मिलती है।

ये मॉडल Hugging Face, Kaggle, और Google AI Studio जैसे पॉपुलर प्लेटफॉर्म के ज़रिए तुरंत एक्सेस किए जा सकते हैं।

vLLM और Transformers जैसे इंडस्ट्री-स्टैंडर्ड टूल्स के साथ कम्पैटिबिलिटी पक्का करके, Google Gemma 4 को AI-ड्रिवन प्रोडक्ट्स की अगली पीढ़ी के लिए गो-टू ओपन-सोर्स फाउंडेशन के तौर पर पेश कर रहा है।

గూగుల్ జెమ్మా 4ను ఆవిష్కరించింది: మల్టీమోడల్ ఓపెన్-సోర్స్ AIలో ఒక నూతన శకం

రీజనింగ్ మరియు ఏజెంట్-ఆధారిత వర్క్‌ఫ్లోల పరిమితులను విస్తరించేలా రూపొందించబడిన, తన ఓపెన్-సోర్స్ మోడల్ కుటుంబంలో సరికొత్త పరిణామమైన జెమ్మా 4ను గూగుల్ అధికారికంగా పరిచయం చేసింది.

400 మిలియన్లకు పైగా డౌన్‌లోడ్‌లను సాధించిన మునుపటి జెమ్మా వెర్షన్‌ల అపారమైన విజయం తర్వాత ఈ కొత్త తరం వచ్చింది.

ప్రతి పారామీటర్‌కు అధిక పనితీరుపై దృష్టి సారించడం ద్వారా, చేతిలో పట్టుకునే మొబైల్ పరికరాల నుండి పటిష్టమైన క్లౌడ్ ఇన్‌ఫ్రాస్ట్రక్చర్‌ల వరకు విభిన్న హార్డ్‌వేర్ పరిసరాలలో పనిచేయడానికి అత్యంత సామర్థ్యం మరియు సమర్థత కలిగిన ఒక సాధనాన్ని డెవలపర్‌లకు అందించాలని గూగుల్ లక్ష్యంగా పెట్టుకుంది.

విభిన్న సాంకేతిక అవసరాలను తీర్చడానికి జెమ్మా 4 శ్రేణి వ్యూహాత్మకంగా నాలుగు విభిన్న కాన్ఫిగరేషన్‌లుగా విభజించబడింది.

వీటిలో పరిమిత మెమరీ ఉన్న ఎడ్జ్ పరికరాల కోసం ప్రత్యేకంగా రూపొందించబడిన ఎఫెక్టివ్ 2B (E2B) మరియు ఎఫెక్టివ్ 4B (E4B) మోడల్‌లతో పాటు, తక్కువ-లేటెన్సీ పనితీరు కోసం 26B మిక్చర్ ఆఫ్ ఎక్స్‌పర్ట్స్ వేరియంట్ కూడా ఉంది.

 అత్యంత క్లిష్టమైన పనుల కోసం, 31B డెన్స్ మోడల్ అగ్రస్థానంలో నిలుస్తుంది. ఇది నిర్వహించదగిన కంప్యూట్ ఫుట్‌ప్రింట్‌ను కొనసాగిస్తూనే, ప్రపంచంలోని ప్రముఖ ఓపెన్-సోర్స్ బెంచ్‌మార్క్‌ల పనితీరుకు దీటుగా నిలుస్తుంది.

ఈ విడుదల యొక్క ఒక విశేషమైన ఫీచర్ దాని నేటివ్ మల్టీమోడల్ సామర్థ్యం. ఇది టెక్స్ట్‌తో పాటు ఇమేజ్, వీడియో, మరియు ఆడియో ఇన్‌పుట్‌లను ప్రాసెస్ చేయడానికి మోడళ్లను అనుమతిస్తుంది.

256K టోకెన్‌ల వరకు చేరే కాంటెక్స్ట్ విండోలతో, జెమ్మా 4 భారీ డేటాసెట్‌లను మరియు పొడవైన డాక్యుమెంట్‌లను సులభంగా విశ్లేషించగలదు.

అంతేకాకుండా, ఈ మోడళ్లు 140కి పైగా భాషలకు మద్దతు ఇస్తాయి. దీనివల్ల ప్రపంచవ్యాప్తంగా ఉన్న డెవలపర్లు భాషాపరంగా సమ్మిళితమైన మరియు సాంస్కృతికంగా సంబంధితమైన అప్లికేషన్‌లను రూపొందించగలరని ఇది నిర్ధారిస్తుంది.

సాధారణ టెక్స్ట్ జనరేషన్‌కు మించి, జెమ్మా 4 సంక్లిష్టమైన ఏజెంట్ వర్క్‌ఫ్లోల కోసం రూపొందించబడింది.

ఇది మల్టీ-స్టెప్ రీజనింగ్, స్ట్రక్చర్డ్ అవుట్‌పుట్‌లు, మరియు ఫంక్షన్ కాలింగ్ వంటి అధునాతన ఫీచర్లకు మద్దతు ఇస్తుంది. పనులను స్వయంప్రతిపత్తితో నిర్వహించగల AI "ఏజెంట్లను" సృష్టించడానికి ఈ ఫీచర్లు చాలా అవసరం.

 కోడ్‌ను రూపొందించడం లేదా క్లిష్టమైన డేటా విశ్లేషణ చేయడం వంటి పనులైనా, ఈ మోడల్ ఆన్‌లైన్ మరియు ఆఫ్‌లైన్ (స్థానిక) సందర్భాలలో విశ్వసనీయంగా పనిచేసేలా రూపొందించబడింది. ఇది ఆధునిక సాఫ్ట్‌వేర్ అభివృద్ధికి అధిక స్థాయి బహుముఖ ప్రజ్ఞను అందిస్తుంది.

విస్తృత ఆవిష్కరణలను ప్రోత్సహించే చర్యలో భాగంగా, గూగుల్ జెమ్మా 4ను అపాచీ 2.0 లైసెన్స్ కింద విడుదల చేసింది. ఇది అనియంత్రిత వాణిజ్య వినియోగానికి మరియు మార్పులకు అనుమతిస్తుంది.

హగ్గింగ్ ఫేస్, కాగిల్ మరియు గూగుల్ ఏఐ స్టూడియో వంటి ప్రముఖ ప్లాట్‌ఫారమ్‌ల ద్వారా ఈ మోడల్స్ తక్షణమే అందుబాటులో ఉంటాయి.

vLLM మరియు ట్రాన్స్‌ఫార్మర్స్ వంటి పరిశ్రమ-ప్రామాణిక సాధనాలతో అనుకూలతను నిర్ధారించడం ద్వారా, గూగుల్ జెమ్మా 4ను తదుపరి తరం ఏఐ-ఆధారిత ఉత్పత్తులకు ప్రధాన ఓపెన్-సోర్స్ పునాదిగా నిలబెడుతోంది.

No comments:

Post a Comment

Please Dont Leave Me