Tuesday, May 12, 2026

Mira Murati’s Thinking Machines Lab Debuts Real-Time Interaction Models

Mira Murati’s Thinking Machines Lab Debuts Real-Time Interaction Models


Mira Murati’s Thinking Machines Lab Debuts Real-Time Interaction Models


Thinking Machines Lab, the AI startup founded by former OpenAI executive Mira Murati, has officially unveiled a breakthrough category of artificial intelligence known as "interaction models." 


These multimodal systems are specifically engineered to eliminate the frustrating lag currently experienced during AI conversations. 


By processing audio and visual inputs simultaneously, the technology facilitates real-time, continuous communication, moving away from the "turn-based" nature of traditional chatbots to create a more fluid human-AI experience.


The core of this innovation lies in a "full-duplex" architecture that breaks down communication into tiny micro-turns of approximately 200 milliseconds. 


The flagship model, TML-Interaction-Small, is a massive 276-billion parameter mixture-of-experts system designed for rapid-fire conversational handling. 


To maintain speed without sacrificing intelligence, it operates alongside a secondary "background" model that manages heavy-duty reasoning and web searches asynchronously while the primary model keeps the conversation moving.


To achieve record-breaking speed, the startup introduced a technique called "encoder-free early fusion." 


This method bypasses the bulky external encoders typically required for audio and video processing, instead feeding raw signals directly into lightweight embedding layers within the transformer. 


On the FD-bench interaction benchmark, TML-Interaction-Small clocked a response latency of under 0.4 seconds, a milestone that makes AI reactions nearly indistinguishable from human response times.


Beyond simple conversation, these models possess an inherent "time awareness," allowing them to understand contextual instructions without the need for manual timestamps. 

This makes the technology particularly potent for industrial and enterprise applications, where the AI can monitor live video feeds to detect safety violations or abnormalities the moment they occur. 


In a customer service setting, this shift significantly reduces the transactional feel of automated assistants, making interactions feel more intuitive and natural.


The debut of Thinking Machines Lab marks a significant pivot in the AI industry's priorities, shifting focus from pure reasoning power to the quality of real-time engagement. 


By solving the latency problem, Murati’s team is positioning interaction models as the new standard for how humans and machines coexist in professional and personal spaces. 


As these systems move toward wider deployment, the boundary between digital assistance and live collaboration is expected to blur even further.



मीरा मुराती की थिंकिंग मशीन्स लैब ने रियल-टाइम इंटरैक्शन मॉडल शुरू किए

थिंकिंग मशीन्स लैब, जो OpenAI की पूर्व एग्जीक्यूटिव मीरा मुराती का बनाया AI स्टार्टअप है, ने ऑफिशियली आर्टिफिशियल इंटेलिजेंस की एक नई कैटेगरी शुरू की है, जिसे "इंटरैक्शन मॉडल" के नाम से जाना जाता है।

ये मल्टीमॉडल सिस्टम खास तौर पर AI बातचीत के दौरान होने वाले परेशान करने वाले लैग को खत्म करने के लिए बनाए गए हैं।

ऑडियो और विज़ुअल इनपुट को एक साथ प्रोसेस करके, यह टेक्नोलॉजी रियल-टाइम, लगातार कम्युनिकेशन को आसान बनाती है, जो ट्रेडिशनल चैटबॉट के "टर्न-बेस्ड" नेचर से हटकर एक ज़्यादा आसान ह्यूमन-AI एक्सपीरियंस बनाती है।

इस इनोवेशन का मेन बेस एक "फुल-डुप्लेक्स" आर्किटेक्चर है जो कम्युनिकेशन को लगभग 200 मिलीसेकंड के छोटे माइक्रो-टर्न में तोड़ता है।

फ्लैगशिप मॉडल, TML-इंटरैक्शन-स्मॉल, एक बड़ा 276-बिलियन पैरामीटर मिक्सचर-ऑफ-एक्सपर्ट्स सिस्टम है जिसे रैपिड-फायर बातचीत को संभालने के लिए डिज़ाइन किया गया है।

 इंटेलिजेंस से समझौता किए बिना स्पीड बनाए रखने के लिए, यह एक सेकेंडरी "बैकग्राउंड" मॉडल के साथ काम करता है जो हैवी-ड्यूटी रीज़निंग और वेब सर्च को एसिंक्रोनसली मैनेज करता है, जबकि प्राइमरी मॉडल बातचीत को चालू रखता है।

रिकॉर्ड-ब्रेकिंग स्पीड पाने के लिए, स्टार्टअप ने "एनकोडर-फ्री अर्ली फ्यूजन" नाम की एक टेक्निक शुरू की।

यह तरीका ऑडियो और वीडियो प्रोसेसिंग के लिए आम तौर पर ज़रूरी भारी एक्सटर्नल एनकोडर को बायपास करता है, इसके बजाय रॉ सिग्नल को सीधे ट्रांसफॉर्मर के अंदर हल्के एम्बेडिंग लेयर में फीड करता है।

FD-बेंच इंटरैक्शन बेंचमार्क पर, TML-इंटरेक्शन-स्मॉल ने 0.4 सेकंड से कम की रिस्पॉन्स लेटेंसी देखी, यह एक ऐसा माइलस्टोन है जो AI रिएक्शन को इंसानी रिस्पॉन्स टाइम से लगभग अलग नहीं कर पाता है।

सिंपल बातचीत के अलावा, इन मॉडल्स में एक अंदरूनी "टाइम अवेयरनेस" होती है, जिससे वे मैनुअल टाइमस्टैम्प की ज़रूरत के बिना कॉन्टेक्स्ट के निर्देशों को समझ सकते हैं।

यह टेक्नोलॉजी इंडस्ट्रियल और एंटरप्राइज़ एप्लिकेशन के लिए खास तौर पर असरदार है, जहाँ AI लाइव वीडियो फीड को मॉनिटर कर सकता है ताकि सेफ्टी वायलेशन या असामान्यताओं का पता उसी समय लगाया जा सके जब वे होती हैं।

 कस्टमर सर्विस सेटिंग में, यह बदलाव ऑटोमेटेड असिस्टेंट के ट्रांज़ैक्शनल फील को काफी कम कर देता है, जिससे बातचीत ज़्यादा आसान और नैचुरल लगती है।

थिंकिंग मशीन्स लैब का डेब्यू AI इंडस्ट्री की प्रायोरिटीज़ में एक बड़ा बदलाव दिखाता है, जो सिर्फ़ रीज़निंग पावर से रियल-टाइम एंगेजमेंट की क्वालिटी पर फोकस करता है।

लेटेंसी प्रॉब्लम को सॉल्व करके, मुराती की टीम इंटरैक्शन मॉडल्स को इस बात के लिए नए स्टैंडर्ड के तौर पर पेश कर रही है कि प्रोफेशनल और पर्सनल स्पेस में इंसान और मशीनें एक साथ कैसे रहते हैं।

जैसे-जैसे ये सिस्टम बड़े पैमाने पर डिप्लॉयमेंट की ओर बढ़ रहे हैं, डिजिटल असिस्टेंस और लाइव कोलैबोरेशन के बीच की बाउंड्री और भी धुंधली होने की उम्मीद है।

మీరా మురాటి యొక్క థింకింగ్ మెషీన్స్ ల్యాబ్ రియల్-టైమ్ ఇంటరాక్షన్ మోడల్స్‌ను ఆవిష్కరించింది

OpenAI మాజీ ఎగ్జిక్యూటివ్ మీరా మురాటి స్థాపించిన AI స్టార్టప్ అయిన థింకింగ్ మెషీన్స్ ల్యాబ్, "ఇంటరాక్షన్ మోడల్స్" అని పిలువబడే ఆర్టిఫిషియల్ ఇంటెలిజెన్స్‌లో ఒక విప్లవాత్మక విభాగాన్ని అధికారికంగా ఆవిష్కరించింది.

AI సంభాషణల సమయంలో ప్రస్తుతం ఎదురవుతున్న విసుగు పుట్టించే జాప్యాన్ని తొలగించడానికి ఈ మల్టీమోడల్ సిస్టమ్‌లు ప్రత్యేకంగా రూపొందించబడ్డాయి.

ఆడియో మరియు విజువల్ ఇన్‌పుట్‌లను ఏకకాలంలో ప్రాసెస్ చేయడం ద్వారా, ఈ టెక్నాలజీ రియల్-టైమ్, నిరంతర కమ్యూనికేషన్‌ను సులభతరం చేస్తుంది. ఇది సాంప్రదాయ చాట్‌బాట్‌ల యొక్క "టర్న్-బేస్డ్" స్వభావం నుండి వైదొలగి, మరింత ఫ్లూయిడ్ హ్యూమన్-AI అనుభవాన్ని సృష్టిస్తుంది.

ఈ ఆవిష్కరణ యొక్క ప్రధానాంశం "ఫుల్-డ్యూప్లెక్స్" ఆర్కిటెక్చర్. ఇది కమ్యూనికేషన్‌ను సుమారు 200 మిల్లీసెకన్ల చిన్న మైక్రో-టర్న్‌లుగా విభజిస్తుంది.

దీని ఫ్లాగ్‌షిప్ మోడల్, TML-ఇంటరాక్షన్-స్మాల్, వేగవంతమైన సంభాషణ నిర్వహణ కోసం రూపొందించబడిన 276-బిలియన్ పారామీటర్లతో కూడిన ఒక భారీ మిక్చర్-ఆఫ్-ఎక్స్‌పర్ట్స్ సిస్టమ్.

 తెలివిని కోల్పోకుండా వేగాన్ని కొనసాగించడానికి, ఇది ఒక ద్వితీయ "నేపథ్య" నమూనాతో కలిసి పనిచేస్తుంది. ప్రాథమిక నమూనా సంభాషణను కొనసాగిస్తుండగా, ఈ ద్వితీయ నమూనా క్లిష్టమైన తార్కిక విశ్లేషణ మరియు వెబ్ శోధనలను అసింక్రోనస్‌గా నిర్వహిస్తుంది.

రికార్డు స్థాయిలో వేగాన్ని సాధించడానికి, ఈ స్టార్టప్ "ఎన్‌కోడర్-ఫ్రీ ఎర్లీ ఫ్యూజన్" అనే సాంకేతికతను ప్రవేశపెట్టింది.

ఈ పద్ధతి, సాధారణంగా ఆడియో మరియు వీడియో ప్రాసెసింగ్ కోసం అవసరమయ్యే భారీ బాహ్య ఎన్‌కోడర్‌లను తప్పించి, ముడి సిగ్నల్‌లను నేరుగా ట్రాన్స్‌ఫార్మర్‌లోని తేలికపాటి ఎంబెడింగ్ లేయర్‌లలోకి పంపుతుంది.

FD-బెంచ్ ఇంటరాక్షన్ బెంచ్‌మార్క్‌లో, TML-ఇంటరాక్షన్-స్మాల్ 0.4 సెకన్ల కంటే తక్కువ ప్రతిస్పందన జాప్యాన్ని నమోదు చేసింది. ఇది ఒక మైలురాయి, దీనితో AI ప్రతిచర్యలు మానవ ప్రతిస్పందన సమయాల నుండి దాదాపుగా వేరు చేయలేనివిగా మారాయి.

సాధారణ సంభాషణకు మించి, ఈ నమూనాలు సహజమైన "సమయ అవగాహన"ను కలిగి ఉంటాయి. దీనివల్ల, మాన్యువల్ టైమ్‌స్టాంప్‌ల అవసరం లేకుండానే సందర్భోచిత సూచనలను అర్థం చేసుకోగలవు.

ఇది ఈ సాంకేతికతను పారిశ్రామిక మరియు ఎంటర్‌ప్రైజ్ అనువర్తనాలకు ప్రత్యేకంగా శక్తివంతంగా చేస్తుంది. ఇక్కడ AI, ప్రత్యక్ష వీడియో ఫీడ్‌లను పర్యవేక్షించి, భద్రతా ఉల్లంఘనలు లేదా అసాధారణతలు జరిగిన వెంటనే వాటిని గుర్తించగలదు.

 కస్టమర్ సర్వీస్ రంగంలో, ఈ మార్పు ఆటోమేటెడ్ అసిస్టెంట్ల లావాదేవీల స్వభావాన్ని గణనీయంగా తగ్గిస్తుంది, తద్వారా సంభాషణలు మరింత సహజంగా మరియు సులభంగా అనిపిస్తాయి.

థింకింగ్ మెషీన్స్ ల్యాబ్ ప్రారంభం, AI పరిశ్రమ ప్రాధాన్యతలలో ఒక ముఖ్యమైన మలుపును సూచిస్తుంది. ఇది దృష్టిని కేవలం తార్కిక శక్తి నుండి నిజ-సమయ పరస్పర చర్య యొక్క నాణ్యత వైపు మళ్లిస్తుంది.

లేటెన్సీ సమస్యను పరిష్కరించడం ద్వారా, వృత్తిపరమైన మరియు వ్యక్తిగత ప్రదేశాలలో మానవులు మరియు యంత్రాలు ఎలా సహజీవనం చేయాలనే దానికి మురాటి బృందం ఇంటరాక్షన్ మోడల్స్‌ను కొత్త ప్రమాణంగా నిలుపుతోంది.

ఈ వ్యవస్థలు విస్తృత స్థాయిలో వినియోగంలోకి వస్తున్న కొద్దీ, డిజిటల్ సహాయం మరియు ప్రత్యక్ష సహకారం మధ్య ఉన్న సరిహద్దు మరింతగా అస్పష్టంగా మారుతుందని అంచనా.

No comments:

Post a Comment

Please Dont Leave Me