Sunday, November 16, 2025

Google DeepMind Unveils SIMA 2: An Advanced AI Agent for Virtual Worlds

Google DeepMind Unveils SIMA 2: An Advanced AI Agent for Virtual Worlds



Google DeepMind Unveils SIMA 2: An Advanced AI Agent for Virtual Worlds


SIMA 2, the Scalable Instructable Multiworld Agent, is the newest version of an AI system developed by Google DeepMind that represents a significant leap forward in creating adaptable and intelligent AI. 


Building on the original SIMA model from March 2024, SIMA 2 is powered by Google’s Gemini models and is explicitly designed to think, plan, and continually learn across various virtual worlds. 


The core objective is to train AI agents capable of reasoning through complex tasks and interacting intuitively based on natural language instructions.


A key improvement in SIMA 2 is its enhanced ability to analyze and plan actions to achieve a given objective. 


When presented with a goal like “build a shelter” or “locate the red house” within a three-dimensional game, the agent receives a visual feed and then strategically breaks the overarching goal into a sequence of smaller, executable actions. 


It carries out these steps using inputs that mimic a keyboard and mouse, allowing the system to map human-like instructions to meaningful, observable behavior within the game environment, thus demonstrating better task completion and adaptability.



SIMA 2 exhibits superior performance in unfamiliar game environments, a major advance over its predecessor. 


DeepMind tested the agent in games it had never encountered, such as the research adaptation Minedojo (Minecraft) and the survival game ASKA, showing improved adaptability and higher success rates in both. 


The agent can also handle multimodal prompts, accepting instructions via sketches, emojis, or different languages, and notably, it possesses the capability for transfer learning, applying concepts learned in one game to another, which streamlines its learning process across varied virtual settings.


The training methodology for SIMA 2 combines human demonstrations with automatically generated annotations from the Gemini models. 


Crucially, when the agent learns a new skill or movement in a novel environment, that experience is recorded and fed back into the training loop. 


This continual learning approach reduces the reliance on extensive human-labeled data, allowing the AI to refine and improve its abilities autonomously as it explores new scenarios, making the training process more efficient and scalable.



While demonstrating significant progress, SIMA 2 currently faces limitations, particularly in areas like long-term memory, complex multi-step reasoning, and achieving extremely precise low-level control. 


These constraints prevent its immediate application in physical robotics. Nevertheless, DeepMind views these three-dimensional game environments as vital proving grounds. 


By successfully developing agents that can understand language, plan, and execute tasks in complex virtual spaces, the company is laying the foundational groundwork for creating general-purpose AI agents that can eventually operate and assist in real-world physical settings.



Google DeepMind ने SIMA 2 का अनावरण किया: आभासी दुनिया के लिए एक उन्नत AI एजेंट

SIMA 2, स्केलेबल इंस्ट्रक्टेबल मल्टीवर्ल्ड एजेंट, Google DeepMind द्वारा विकसित AI सिस्टम का नवीनतम संस्करण है जो अनुकूलनीय और बुद्धिमान AI बनाने की दिशा में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है।

मार्च 2024 के मूल SIMA मॉडल पर आधारित, SIMA 2 Google के जेमिनी मॉडल द्वारा संचालित है और इसे विभिन्न आभासी दुनियाओं में सोचने, योजना बनाने और निरंतर सीखने के लिए विशेष रूप से डिज़ाइन किया गया है।

इसका मुख्य उद्देश्य जटिल कार्यों को समझने और प्राकृतिक भाषा निर्देशों के आधार पर सहज रूप से बातचीत करने में सक्षम AI एजेंटों को प्रशिक्षित करना है।

SIMA 2 में एक प्रमुख सुधार किसी दिए गए उद्देश्य को प्राप्त करने के लिए क्रियाओं का विश्लेषण और योजना बनाने की इसकी बढ़ी हुई क्षमता है।

जब किसी त्रि-आयामी गेम में "आश्रय बनाएँ" या "लाल घर का पता लगाएँ" जैसे लक्ष्य प्रस्तुत किए जाते हैं, तो एजेंट को एक दृश्य फ़ीड प्राप्त होती है और फिर वह रणनीतिक रूप से व्यापक लक्ष्य को छोटे, निष्पादन योग्य कार्यों के अनुक्रम में विभाजित करता है।

 यह इन चरणों को कीबोर्ड और माउस की नकल करने वाले इनपुट का उपयोग करके पूरा करता है, जिससे सिस्टम मानव-समान निर्देशों को गेम के वातावरण में सार्थक, अवलोकनीय व्यवहार से जोड़ पाता है, जिससे बेहतर कार्य पूर्णता और अनुकूलन क्षमता प्रदर्शित होती है।

SIMA 2 अपरिचित गेम वातावरण में बेहतर प्रदर्शन करता है, जो इसके पूर्ववर्ती की तुलना में एक बड़ी प्रगति है।

DeepMind ने एजेंट का परीक्षण ऐसे खेलों में किया जो उसने पहले कभी नहीं देखे थे, जैसे कि शोध अनुकूलन Minedojo (Minecraft) और उत्तरजीविता गेम ASKA, जिससे दोनों में बेहतर अनुकूलन क्षमता और उच्च सफलता दर प्रदर्शित हुई।

एजेंट मल्टीमॉडल प्रॉम्प्ट को भी संभाल सकता है, स्केच, इमोजी या विभिन्न भाषाओं के माध्यम से निर्देश स्वीकार कर सकता है, और विशेष रूप से, इसमें ट्रांसफर लर्निंग की क्षमता होती है, जो एक गेम में सीखी गई अवधारणाओं को दूसरे गेम में लागू करती है, जो विभिन्न आभासी सेटिंग्स में इसकी सीखने की प्रक्रिया को सुव्यवस्थित करती है।

SIMA 2 की प्रशिक्षण पद्धति मानव प्रदर्शनों को जेमिनी मॉडल से स्वचालित रूप से उत्पन्न एनोटेशन के साथ जोड़ती है।

महत्वपूर्ण रूप से, जब एजेंट किसी नए वातावरण में कोई नया कौशल या गतिविधि सीखता है, तो उस अनुभव को रिकॉर्ड किया जाता है और प्रशिक्षण लूप में वापस फीड किया जाता है।

 यह निरंतर सीखने का दृष्टिकोण व्यापक मानव-लेबल वाले डेटा पर निर्भरता को कम करता है, जिससे AI नए परिदृश्यों की खोज करते समय अपनी क्षमताओं को स्वायत्त रूप से परिष्कृत और बेहतर बना सकता है, जिससे प्रशिक्षण प्रक्रिया अधिक कुशल और मापनीय हो जाती है।

उल्लेखनीय प्रगति प्रदर्शित करते हुए, SIMA 2 वर्तमान में सीमाओं का सामना कर रहा है, विशेष रूप से दीर्घकालिक स्मृति, जटिल बहु-चरणीय तर्क और अत्यंत सटीक निम्न-स्तरीय नियंत्रण प्राप्त करने जैसे क्षेत्रों में।

ये बाधाएँ भौतिक रोबोटिक्स में इसके तत्काल अनुप्रयोग को रोकती हैं। फिर भी, डीपमाइंड इन त्रि-आयामी खेल वातावरणों को महत्वपूर्ण परीक्षण स्थल के रूप में देखता है।

ऐसे एजेंटों को सफलतापूर्वक विकसित करके जो जटिल आभासी स्थानों में भाषा को समझ सकते हैं, योजना बना सकते हैं और कार्यों को निष्पादित कर सकते हैं, कंपनी सामान्य-उद्देश्य वाले AI एजेंटों के निर्माण के लिए आधारभूत आधार तैयार कर रही है जो अंततः वास्तविक दुनिया की भौतिक सेटिंग्स में काम कर सकते हैं और सहायता कर सकते हैं।

గూగుల్ డీప్‌మైండ్ SIMA 2 ను ఆవిష్కరించింది: వర్చువల్ వరల్డ్స్ కోసం ఒక అధునాతన AI ఏజెంట్

SIMA 2, స్కేలబుల్ ఇన్‌స్ట్రక్టబుల్ మల్టీవరల్డ్ ఏజెంట్, ఇది గూగుల్ డీప్‌మైండ్ అభివృద్ధి చేసిన AI సిస్టమ్ యొక్క సరికొత్త వెర్షన్, ఇది అనుకూలత మరియు తెలివైన AIని సృష్టించడంలో గణనీయమైన పురోగతిని సూచిస్తుంది. 

మార్చి 2024 నుండి అసలు SIMA మోడల్‌పై ఆధారపడిన SIMA 2 గూగుల్ యొక్క జెమిని మోడల్‌ల ద్వారా శక్తిని పొందుతుంది మరియు వివిధ వర్చువల్ ప్రపంచాలలో ఆలోచించడానికి, ప్లాన్ చేయడానికి మరియు నిరంతరం నేర్చుకోవడానికి స్పష్టంగా రూపొందించబడింది. 

సంక్లిష్టమైన పనుల ద్వారా తార్కికం చేయగల మరియు సహజ భాషా సూచనల ఆధారంగా అకారణంగా సంభాషించగల AI ఏజెంట్లకు శిక్షణ ఇవ్వడం ప్రధాన లక్ష్యం.

SIMA 2లో కీలకమైన మెరుగుదల ఏమిటంటే, ఇచ్చిన లక్ష్యాన్ని సాధించడానికి చర్యలను విశ్లేషించే మరియు ప్లాన్ చేసే దాని మెరుగైన సామర్థ్యం. 

త్రిమితీయ గేమ్‌లో “ఒక ఆశ్రయాన్ని నిర్మించు” లేదా “ఎర్ర ఇంటిని గుర్తించు” వంటి లక్ష్యాన్ని అందించినప్పుడు, ఏజెంట్ దృశ్యమాన ఫీడ్‌ను అందుకుంటాడు మరియు ఆపై వ్యూహాత్మకంగా ప్రధాన లక్ష్యాన్ని చిన్న, అమలు చేయగల చర్యల శ్రేణిగా విభజిస్తాడు. 

 ఇది కీబోర్డ్ మరియు మౌస్‌ను అనుకరించే ఇన్‌పుట్‌లను ఉపయోగించి ఈ దశలను నిర్వహిస్తుంది, ఇది సిస్టమ్ మానవ-వంటి సూచనలను గేమ్ వాతావరణంలో అర్థవంతమైన, గమనించదగిన ప్రవర్తనకు మ్యాప్ చేయడానికి అనుమతిస్తుంది, తద్వారా మెరుగైన పని పూర్తి మరియు అనుకూలతను ప్రదర్శిస్తుంది.

SIMA 2 తెలియని గేమ్ వాతావరణాలలో అత్యుత్తమ పనితీరును ప్రదర్శిస్తుంది, దాని పూర్వీకుల కంటే ఇది ఒక ప్రధాన పురోగతి.

డీప్‌మైండ్ పరిశోధన అనుసరణ Minedojo (Minecraft) మరియు మనుగడ గేమ్ ASKA వంటి దానిలో ఎప్పుడూ ఎదుర్కోని ఆటలలో ఏజెంట్‌ను పరీక్షించింది, రెండింటిలోనూ మెరుగైన అనుకూలత మరియు అధిక విజయ రేట్లను చూపిస్తుంది.

ఏజెంట్ మల్టీమోడల్ ప్రాంప్ట్‌లను కూడా నిర్వహించగలదు, స్కెచ్‌లు, ఎమోజీలు లేదా వివిధ భాషల ద్వారా సూచనలను అంగీకరిస్తుంది మరియు ముఖ్యంగా, ఇది బదిలీ అభ్యాస సామర్థ్యాన్ని కలిగి ఉంటుంది, ఒక గేమ్‌లో నేర్చుకున్న భావనలను మరొక ఆటకు వర్తింపజేస్తుంది, ఇది విభిన్న వర్చువల్ సెట్టింగ్‌లలో దాని అభ్యాస ప్రక్రియను క్రమబద్ధీకరిస్తుంది.

SIMA 2 కోసం శిక్షణా పద్దతి జెమిని నమూనాల నుండి స్వయంచాలకంగా రూపొందించబడిన ఉల్లేఖనాలతో మానవ ప్రదర్శనలను మిళితం చేస్తుంది.

ముఖ్యంగా, ఏజెంట్ ఒక కొత్త వాతావరణంలో కొత్త నైపుణ్యం లేదా కదలికను నేర్చుకున్నప్పుడు, ఆ అనుభవం రికార్డ్ చేయబడి శిక్షణ లూప్‌లోకి తిరిగి ఇవ్వబడుతుంది.

 ఈ నిరంతర అభ్యాస విధానం విస్తృతమైన మానవ-లేబుల్ చేయబడిన డేటాపై ఆధారపడటాన్ని తగ్గిస్తుంది, AI కొత్త దృశ్యాలను అన్వేషించేటప్పుడు దాని సామర్థ్యాలను స్వయంప్రతిపత్తిగా మెరుగుపరచడానికి మరియు మెరుగుపరచడానికి అనుమతిస్తుంది, శిక్షణ ప్రక్రియను మరింత సమర్థవంతంగా మరియు స్కేలబుల్ చేస్తుంది.

గణనీయమైన పురోగతిని ప్రదర్శిస్తున్నప్పటికీ, SIMA 2 ప్రస్తుతం పరిమితులను ఎదుర్కొంటోంది, ముఖ్యంగా దీర్ఘకాలిక జ్ఞాపకశక్తి, సంక్లిష్టమైన బహుళ-దశల తార్కికం మరియు చాలా ఖచ్చితమైన తక్కువ-స్థాయి నియంత్రణను సాధించడం వంటి రంగాలలో.

ఈ పరిమితులు భౌతిక రోబోటిక్స్‌లో దాని తక్షణ అనువర్తనాన్ని నిరోధిస్తాయి. అయినప్పటికీ, డీప్‌మైండ్ ఈ త్రిమితీయ గేమ్ వాతావరణాలను కీలకమైన నిరూపణ ఆధారాలుగా చూస్తుంది.

సంక్లిష్టమైన వర్చువల్ ప్రదేశాలలో భాషను అర్థం చేసుకోగల, ప్లాన్ చేయగల మరియు పనులను అమలు చేయగల ఏజెంట్లను విజయవంతంగా అభివృద్ధి చేయడం ద్వారా, వాస్తవ-ప్రపంచ భౌతిక సెట్టింగ్‌లలో చివరికి పనిచేయగల మరియు సహాయపడే సాధారణ-ప్రయోజన AI ఏజెంట్లను సృష్టించడానికి కంపెనీ పునాది వేస్తోంది.

No comments:

Post a Comment

Please Dont Leave Me