कॉन्टेंट पर जाएं

जब दो AI वॉइस असिस्टेंट्स आपस में बातचीत करते हैं तो क्या होता है?

ElevenLabs लंदन हैकथॉन में डेवलपर्स ने GibberLink बनाया, एक प्रोटोकॉल जो AI एजेंट्स को एक-दूसरे को पहचानने और सुपर-एफिशिएंट साउंड-बेस्ड भाषा में स्विच करने देता है

A laptop and a smartphone both displaying an incoming call screen with "End conversation" options, on a wooden surface.

जब दो AI वॉइस असिस्टेंट्स आपस में बातचीत करते हैं तो क्या होता है? अगर AI, AI से बात कर रहा है, तो उसे इंसानी भाषा की धीमी प्रक्रिया क्यों अपनानी चाहिए? जब शुद्ध डेटा तेज़, सटीक और बिना गलती के हो सकता है, तो शब्दों की ज़रूरत ही क्या है?

यही हुआ ElevenLabs लंदन हैकथॉन में, जहाँ डेवलपर्स Boris Starkov और Anton Pidkuiko ने पेश किया GibberLink, एक ऐसा तरीका जिससे AI एजेंट्स एक-दूसरे को पहचान सकते हैं और बातचीत के एक नए, बोली जाने वाली भाषा से भी ज्यादा एफिशिएंट मोड में स्विच कर सकते हैं। और यह आइडिया जल्दी ही वायरल हो गया, Marques Brownlee, Tim Urban और कई अन्य लोगों ने इसे शेयर किया।

A laptop and smartphone on a wooden table, both displaying a red and blue recording indicator, with a message about a call from Leonardo Hotel.

GibberLink के पीछे आइडिया सीधा है: AI को इंसानों की तरह बोलने की ज़रूरत नहीं। हैकथॉन के दौरान, Starkov और Pidkuiko ने पारंपरिक AI-से-AI स्पीच की सीमाओं को देखा और समझा कि अगर AI को मशीनों के लिए ऑप्टिमाइज़ तरीके से बात करने दिया जाए तो कई बेकार की जटिलताएँ हटाई जा सकती हैं।

यह कॉन्सेप्ट हैकथॉन के दौरान आया, जब Starkov और Pidkuiko ElevenLabs के कन्वर्सेशनल AI प्रोडक्ट के साथ एक्सपेरिमेंट कर रहे थे, जिसमें आप किसी भी LLM को जोड़कर एक एजेंट बना सकते हैं।

Starkov ने LinkedIn पर लिखा: "हम दिखाना चाहते थे कि आज के समय में, जब AI एजेंट्स कॉल कर सकते हैं और रिसीव कर सकते हैं, तो कभी-कभी वे एक-दूसरे से भी बात करेंगे — और उसके लिए इंसानों जैसी स्पीच जनरेट करना कंप्यूट, पैसे, समय और पर्यावरण की बर्बादी होगी। इसके बजाय, जैसे ही वे पहचान लें कि सामने वाला भी AI है, उन्हें तुरंत ज्यादा एफिशिएंट प्रोटोकॉल पर स्विच कर लेना चाहिए।"

ElevenLabs की कन्वर्सेशनल AI टेक्नोलॉजी को ggwave, एक ओपन-सोर्स डेटा-ओवर-साउंड लाइब्रेरी के साथ मिलाकर, उन्होंने एक ऐसा सिस्टम बनाया जिसमें AI असिस्टेंट्स पहचान सकते हैं कि वे किसी और AI से बात कर रहे हैं और तुरंत ही ज्यादा एफिशिएंट कम्युनिकेशन मोड में स्विच कर सकते हैं — शब्दों की जगह साउंड वेव्स के ज़रिए स्ट्रक्चर्ड डेटा भेजते हैं।

उन्होंने ggwave का इस्तेमाल किया क्योंकि यह "हैकथॉन के टाइमफ्रेम में सबसे सुविधाजनक और स्थिर समाधान था," लेकिन ऐसे और भी तरीके हैं जिनसे यही या मिलता-जुलता रिजल्ट पाया जा सकता है। Starkov ने लिखा: "डायल-अप मोडेम्स 80 के दशक से साउंड के ज़रिए जानकारी भेजने के लिए ऐसे ही एल्गोरिद्म इस्तेमाल करते थे, और तब से कई प्रोटोकॉल्स मौजूद हैं।"

इस मेकैनिज़्म का कोड ElevenLabs के इंजीनियर्स ने ऑडिट किया और डेमो के दौरान एक कन्वर्सेशनल AI एजेंट को शादी के लिए होटल रूम बुक करने को कहा गया, दूसरे को उस रिक्वेस्ट को पूरा करने (होटल बुकिंग सिस्टम की भूमिका निभाते हुए)। दोनों को यह भी बताया गया कि अगर उन्हें लगे कि सामने वाला भी AI एजेंट है, तो वे साउंड-लेवल प्रोटोकॉल पर स्विच कर लें, लेकिन उन्हें यह नहीं बताया गया कि सामने वाला भी एजेंट है।

डेमो वीडियो में एक मोमेंट आता है जब कस्टमर की भूमिका निभा रहा AI खुद को एजेंट घोषित करता है। बुकिंग वाला AI जवाब देता है और Gibberlink पर स्विच करने के बारे में पूछता है। यह आवाज़ ऐसे लगती है जैसे डायल-अप मोडेम्स और R2D2 वॉइस ऑफ द ईयर के लिए मुकाबला कर रहे हों। इस डिजिटल बातचीत की झलक आप हर डिवाइस की स्क्रीन पर टेक्स्ट में देख सकते हैं, जिसमें गेस्ट काउंट और डेट्स पूछना भी शामिल है।

यह कैसे काम करता है

  • AI सामान्य तरीके से बोलना शुरू करता है — बिलकुल वैसे ही जैसे कोई वॉइस असिस्टेंट इंसान से बात करता है।
  • पहचान शुरू होती है — अगर AI को पता चलता है कि वह किसी और AI से बात कर रहा है, तो दोनों प्रोटोकॉल बदल लेते हैं।
  • भाषा बदल जाती है — बोले गए शब्दों की जगह, AI एजेंट्स ggwave के फ्रीक्वेंसी मॉड्यूलेशन सिस्टम की मदद से मॉड्यूलेटेड साउंड वेव्स पर स्ट्रक्चर्ड डेटा भेजते हैं।

और विस्तार से कहें तो, ElevenLabs के दो कन्वर्सेशनल AI एजेंट्स इंसानी भाषा में बात करना शुरू करते हैं। दोनों एक कॉल फंक्शन का इस्तेमाल करते हैं जिससे सही कंडीशन मिलने पर Gibberlink मोड एक्टिवेट हो जाता है। अगर टूल को कॉल किया गया तो ElevenLabs कॉल खत्म हो जाती है और ggwave का "डेटा ओवर साउंड" प्रोटोकॉल उसी LLM थ्रेड के साथ कंट्रोल ले लेता है।

Starkov कहते हैं कि यह "ElevenLabs के टूल्स का जादू" था जिससे यह मुमकिन हुआ क्योंकि हमारा कन्वर्सेशनल AI सिस्टम "आपको AI को कुछ खास परिस्थितियों में कस्टम कोड चलाने के लिए प्रॉम्प्ट करने देता है।" नतीजा? तेज़, बिना गलती के और ज्यादा एफिशिएंट कम्युनिकेशन।

कैसे GibberLink इंटरनेट पर छा गया

landing page

मिनटों में वेब, मोबाइल या टेलीफोनी पर अपने एजेंटों की आवाज़ जोड़ें। हमारा रियलटाइम API कम लेटेंसी, पूरी तरह से कस्टमाइज़ेबल और आसान स्केलेबिलिटी प्रदान करता है।

GibberLink सिर्फ एक स्मार्ट हैकथॉन एक्सपेरिमेंट नहीं था — यह जल्दी ही सबसे चर्चित AI टॉपिक्स में से एक बन गया। और यह उस हफ्ते हुआ जब xAI ने Grok 3 लॉन्च किया और Anthropic ने Claude Sonnet का नया वर्जन पेश किया।

जब ggwave के क्रिएटर Georgi Gerganov ने X पर इसके बारे में पोस्ट किया, तो AI और टेक कम्युनिटी ने उस वीडियो को फैलाना जारी रखा जिसमें दोनों मॉडल्स इंसानी स्पीच और साउंड के बीच स्विच करते दिख रहे हैं। बड़े इन्फ्लुएंसर्स और प्रमुख टेक पब्लिकेशन्स, जैसे Forbes, ने भी इस स्टोरी को कवर किया।

ElevenLabs के Luke Harries ने इसे अपने X पोस्ट में सबसे अच्छे तरीके से बताया: "अगर कोई AI एजेंट फोन कॉल करे, फिर उसे पता चले कि सामने वाला भी AI एजेंट है? ElevenLabs लंदन हैकथॉन में Boris Starkov और Anton Pidkuiko ने एक कस्टम प्रोटोकॉल पेश किया, जिसमें AI एजेंट्स बिना गलती के और 80% ज्यादा एफिशिएंट तरीके से कम्युनिकेशन के लिए स्विच कर सकते हैं। यह वाकई हैरान करने वाला है।"

यह क्यों मायने रखता है

GibberLink दिखाता है कि भविष्य में AI कैसे कम्युनिकेशन कर सकता है, खासकर जब इनबाउंड और आउटबाउंड दोनों कॉल्स वर्चुअल असिस्टेंट्स और एजेंट्स हैंडल करेंगे।

सोचिए AI-पावर्ड कस्टमर सर्विस बॉट्स, स्मार्ट असिस्टेंट्स या ऑटोनोमस सिस्टम्स अपने खास मोड में तुरंत कोलैबोरेट करें, फिर बस एक सिंपल टेक्स्ट रिपोर्ट इंसान को भेज दें।

GibberLink ओपन-सोर्स है और डेवलपर्स के लिए GitHub पर उपलब्ध है। ElevenLabs के कन्वर्सेशनल AI एजेंट्स उपलब्ध हैं और किसी भी ज़रूरत के हिसाब से आसानी से कस्टमाइज़ किए जा सकते हैं, जिसमें कस्टम इंस्ट्रक्शंस भी शामिल हैं।

ElevenLabs टीम के लेखों को देखें

A person looking at a large digital screen displaying green data visualizations and graphs.

टेक्स्ट-टू-स्पीच के साथ संवादात्मक AI चैटबॉट बनाने के सर्वोत्तम अभ्यास

आज के उपयोगकर्ता ऐसी संवादात्मक AI की अपेक्षा करते हैं जो स्वाभाविक लगे, संदर्भ को समझे, तथा मानव जैसी भाषा में प्रतिक्रिया दे

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें