
Integrating external agents with ElevenLabs Agents' voice orchestration
Patterns for integrating ElevenLabs voice orchestration with complex and stateful agents
लंदन, यूनाइटेड किंगडम – ElevenLabs, कृत्रिम भाषण पहचान सॉफ़्टवेयर के विश्व अग्रणी प्रदाता ने आज एक नया बहुभाषी मॉडल लॉन्च किया है, जो 30 भाषाओं में 'भावनात्मक' AI ऑडियो संकेत उत्पन्न करने में सक्षम है।
यह विकास, जो पूरी तरह से कंपनी के अनुसंधान पर आधारित है, डेवलपर्स को यूरोप, एशिया और मध्य पूर्व के अंतरराष्ट्रीय बाजारों के लिए स्थानीयकृत ऑडियो सामग्री का उत्पादन करने में सक्षम बनाएगा। ElevenLabs ने पिछले 18 महीनों में मानव भाषा के संकेतकों का विश्लेषण किया है, संदर्भ को समझने और भाषण उत्पादन में भावनाओं को व्यक्त करने के लिए नए तंत्र विकसित किए हैं और नई, अनूठी आवाज़ों को सिंथेसाइज़ किया है।
Eleven Multilingual v2 के साथ नया मॉडल ElevenLabs की टेक्स्ट टू स्पीच प्लेटफ़ॉर्म में टेक्स्ट दर्ज करने पर लगभग 30 लिपि भाषाओं को स्वचालित रूप से पहचान सकता है और इन भाषाओं में एक अभूतपूर्व प्रामाणिकता के साथ भाषण उत्पन्न कर सकता है।
चाहे एक सिंथेटिक या क्लोन की गई आवाज़ का उपयोग किया जाए, वक्ताओं की अनूठी आवाज़ की विशेषताएं सभी भाषाओं में बनी रहती हैं, जिसमें मूल उच्चारण भी शामिल है। इसका मतलब है कि एक ही आवाज़ के साथ 30 विभिन्न भाषाओं में सामग्री को जीवंत किया जा सकता है।
यह परिचय प्लेटफ़ॉर्म पर सभी क्रिएटिव्स के लिए Professional Voice Cloning की सार्वजनिक रिलीज़ के बाद आता है। इस प्रोडक्ट अपडेट के साथ, जो अतिरिक्त सुरक्षा सुविधाओं के साथ जारी किया गया था, उपयोगकर्ता अपनी खुद की आवाज़ की एक परफेक्ट डिजिटल कॉपी बना सकते हैं, जो
मूल से लगभग अप्रभेद्य है। आज की रिलीज़ के साथ, आपकी आवाज़ लगभग 30 भाषाओं में बोल सकती है, जो बहुभाषी मॉडल के तहत उपलब्ध हैं।
समर्थित भाषाओं में शामिल हैं: कोरियाई, डच, तुर्की, स्वीडिश, इंडोनेशियाई, वियतनामी, फिलिपिनो, यूक्रेनी, ग्रीक, चेक, फिनिश, रोमानियाई, डेनिश, बुल्गारियाई, मलय, हंगेरियन, नॉर्वेजियन, स्लोवाक, क्रोएशियाई, उच्च अरबी और तमिल। ये भाषाएं पहले से उपलब्ध भाषाओं अंग्रेजी, पोलिश, जर्मन, स्पेनिश, फ्रेंच, इटालियन, हिंदी और पुर्तगाली को पूरक करती हैं।
नई सुविधाओं की शुरुआत और प्लेटफ़ॉर्म के निरंतर सुधार के बाद, ElevenLabs ने आज यह भी पुष्टि की कि प्लेटफ़ॉर्म ने आधिकारिक तौर पर बीटा चरण छोड़ दिया है। यह परिवर्तन कंपनी की प्रतिबद्धता में एक निर्णायक क्षण को चिह्नित करता है, जो दुनिया भर में अपने 1 मिलियन से अधिक उपयोगकर्ताओं को विश्वसनीय और अत्याधुनिक उपकरण प्रदान करता है।
भविष्य के लिए, ElevenLabs उपयोगकर्ताओं को अपनी आवाज़ों को प्लेटफ़ॉर्म पर साझा करने और नई ऑडियो डेटा के विकास से लाभ उठाने के लिए एक तंत्र की शुरुआत की योजना बना रहा है, ताकि मानव और AI के बीच सहयोग को बढ़ावा दिया जा सके।
Mati Staniszewski, ElevenLabs के सीईओ और संस्थापक ने कहा:
“ElevenLabs की स्थापना इस सपने के साथ की गई थी कि सभी सामग्री को हर भाषा और हर आवाज़ में सार्वभौमिक रूप से सुलभ बनाया जाए। Eleven Multilingual v2 की रिलीज़ के साथ, हम इस सपने को साकार करने के एक कदम और करीब आ गए हैं और हर बोली में मानव गुणवत्ता की AI आवाज़ें उपलब्ध करा रहे हैं।
हमारे भाषण संश्लेषण उपकरण सभी क्रिएटिव्स के लिए रास्ता खोल रहे हैं और उन्हें उच्च गुणवत्ता वाले भाषण संश्लेषण विकल्प प्रदान कर रहे हैं। ये लाभ अब लगभग 30 भाषाओं में बहुभाषी अनुप्रयोगों तक विस्तारित हो गए हैं। अंततः, हम AI की मदद से और भी अधिक भाषाओं और आवाज़ों को कवर करने की उम्मीद करते हैं और सामग्री के लिए भाषा की बाधाओं को समाप्त करना चाहते हैं। हम ElevenLabs में मानते हैं कि पहुंच में ये छलांग अंततः अधिक रचनात्मकता, नवाचार और विविधता की ओर ले जाएगी।”
ElevenLabs उन लागतों और संसाधनों को कम करता है जो कई भाषाओं में उच्च गुणवत्ता वाली ऑडियो सामग्री बनाने के लिए आवश्यक होते हैं। कंपनियां और क्रिएटिव्स इस तरह अधिक रचनात्मक और आसानी से सुलभ सामग्री का उत्पादन कर सकते हैं, जो सांस्कृतिक और भाषाई सीमाओं के पार अपील करती है।
स्वतंत्र गेम डेवलपर्स और प्रकाशकों के लिए बहुभाषी भाषण उत्पादन उपकरण नए अवसर प्रदान करता है, ताकि वे अंतरराष्ट्रीय दर्शकों के लिए गेम अनुभवों और ऑडियो सामग्री का अनुवाद कर सकें और खिलाड़ियों और श्रोताओं के साथ उनकी अपनी भाषा में संवाद कर सकें, बिना भाषण की गुणवत्ता या सटीकता से समझौता किए।
इसी तरह, शैक्षणिक संस्थान अब शिक्षार्थियों को लक्ष्य भाषा में तुरंत सटीक ऑडियो सामग्री प्रदान करने की क्षमता रखते हैं, ताकि भाषा समझ और उच्चारण में सुधार हो सके और अंतरराष्ट्रीय छात्रों की विभिन्न शिक्षण शैलियों और सीखने की जरूरतों को पूरा किया जा सके।
सभी प्रकार के क्रिएटिव्स ElevenLabs के टूल का उपयोग कर सकते हैं, ताकि उनकी सामग्री की पहुंच दृष्टिबाधित लोगों या अतिरिक्त सीखने की जरूरतों वाले लोगों के लिए बेहतर हो सके, जिससे वे दृश्य सामग्री को कई भाषाओं में आवाज़ के साथ समृद्ध कर सकें।
जनवरी 2023 में पेश की गई AI भाषण उपकरणों की पहली श्रृंखला हर टेक्स्ट को भाषण में बदलने की क्षमता प्रदान करती है, जिसमें पूर्वनिर्धारित सिंथेटिक आवाज़ों का चयन और अपनी खुद की आवाज़ का क्लोन बनाने की क्षमता शामिल है। बहुभाषी भाषण संश्लेषण उपकरण ElevenLabs के मिशन में एक और कदम है, ताकि सभी सामग्री को हर भाषा और हर आवाज़ में सार्वभौमिक रूप से सुलभ बनाया जा सके।
यह तकनीक पहले से ही विभिन्न रचनात्मक उद्योगों और क्षेत्रों में उपयोग की जा रही है। यह स्वतंत्र लेखकों को ऑडियोबुक लिखने, वीडियो गेम में सहायक पात्रों को आवाज़ देने, दृष्टिबाधित लोगों को ऑनलाइन लिखित सामग्री तक पहुंचने में मदद करने और दुनिया के पहले AI रेडियो स्टेशन को संचालित करने में सक्षम बनाती है। ElevenLabs ने प्रमुख सामग्री निर्माताओं और स्टूडियो के साथ साझेदारी भी की है, जिनमें AI वीडियो जनरेटर D-ID, स्टोरीटेल, दुनिया के सबसे बड़े ऑडियोबुक प्रकाशकों में से एक, ओपन-एक्सेस वीडियो प्लेटफ़ॉर्म साइंसकास्ट, जिसका वीडियो जनरेशन टूल वैज्ञानिक अनुसंधान पत्रों को एकत्र करता है, जो arXiv पर प्रकाशित होते हैं, दुनिया की अग्रणी सामग्री निर्माण प्लेटफ़ॉर्म दसोल पब्लिशिंग, अद्भुत गेम डेवलपर्स जैसे एम्बार्क स्टूडियोज और पैराडॉक्स इंटरएक्टिव और मीडिया प्लेटफ़ॉर्म एमएनटीएन.

Patterns for integrating ElevenLabs voice orchestration with complex and stateful agents

Exploring how AI audio can support the creative process
ElevenLabs द्वारा संचालित एजेंट्स