
Revolut selects ElevenLabs Agents to bolster customer support
Reducing time to ticket resolution by 8x with multilingual conversational agents.
हम अपना खुद का जनरेटिव मॉडल तैनात कर रहे हैं जो यूज़र्स को पूरी तरह से नई सिंथेटिक आवाज़ें डिज़ाइन करने देता है
हाल ही में ऐसा लगता है कि हर कोई जनरेटिव AI के बारे में बात कर रहा है। डीप लर्निंग से संचालित बड़े भाषा और टेक्स्ट-टू-इमेज मॉडल जैसे ChatGPT, Stable Diffusion, DALL-E और Midjourney ने टेक दुनिया और उससे बाहर काफी हलचल मचाई है। कई लोग इन्हें AI में हाल के सबसे महत्वपूर्ण विकासों में शामिल करते हैं। चाहे आप सहमत हों या नहीं, सामान्य भावना यह है कि कुछ बहुत शक्तिशाली प्रकट हुआ है। 2023 में हम ऐसे मॉडल्स के बारे में सुनेंगे जो आपको ड्रॉ करने या वीडियो बनाने में मदद कर सकते हैं। जैसे कि नवीनतम स्मार्टफोन के बारे में सवाल होते हैं, हम जल्द ही पूछेंगे कि नवीनतम फाउंडेशन मॉडल क्या है। फिर भी इस उत्साह के बीच, हमें लगता है कि जनरेटिव मीडिया में एक क्षेत्र है जो अभी भी कम चर्चित है: वॉइस AI। यह वह क्षेत्र भी है जिसमें हम नेता बनना चाहते हैं। Eleven में, हम हर दिन डीप लर्निंग तकनीकों द्वारा खोले गए संभावनाओं पर निर्भर करते हैं ताकि हमारी जीवन जैसी टेक्स्ट टू स्पीच और वॉइस क्लोनिंग टूल्स को शक्ति प्रदान कर सकें। और अब, हम अपना खुद का जनरेटिव मॉडल भी तैनात कर रहे हैं जो आपको पूरी तरह से नई सिंथेटिक आवाज़ें डिज़ाइन करने देता है।
हमारे यूज़र्स रोज़ाना प्लेटफ़ॉर्म पर आते हैं ताकि अपने किरदारों को जीवंत बना सकें - चाहे वह ऑडियोबुक्स, गेम्स या फैन फिक्शन के लिए हो। हमने महसूस किया कि हमारा वर्तमान स्पीकर बैंक बहुत छोटा है ताकि हर कोई अपनी सामग्री की ज़रूरतों के अनुसार आवाज़ें पा सके और प्रत्येक यूज़र के लिए विशेष बनी रहे। हमारा समाधान था कि आप पूरी तरह से नई सिंथेटिक आवाज़ें डिज़ाइन कर सकें।
हमारे पास एक विचार था कि हम इसे कैसे करेंगे जो हमें वर्तमान में स्पीच सिंथेसिस और वॉइस क्लोनिंग के लिए उपयोग की जाने वाली विधियों को खोलते समय आया। दोनों प्रक्रियाओं के लिए एक विशेष आवाज़ की विशेषताओं को एन्कोड करने का तरीका चाहिए। स्पीकर एम्बेडिंग्स इस पहचान को ले जाते हैं - वे एक स्पीकर की आवाज़ का वेक्टर प्रतिनिधित्व हैं। हमने महसूस किया कि हम स्पीकर एम्बेडिंग्स के वितरण से नमूना ले सकते हैं और एक समर्पित मॉडल को प्रशिक्षित करके अनंत नई आवाज़ें बना सकते हैं।
चूंकि हमारे यूज़र्स ज्यादातर विशिष्ट भाषण विशेषताओं की तलाश करते हैं, हमें प्रक्रिया पर नियंत्रण की एक डिग्री जोड़ने की आवश्यकता थी। हमने अपने मॉडल को कंडीशनिंग के साथ विस्तारित किया ताकि उनकी विशेषताओं के आधार पर आवाज़ें उत्पन्न की जा सकें। मॉडल अब आपको कुछ बुनियादी पैरामीटर सेट करने देता है जो नई आवाज़ की मुख्य पहचान स्थापित करते हैं: लिंग, उम्र, उच्चारण, पिच और बोलने की शैली। दूसरे शब्दों में, हर बार जब आप 'जनरेट' दबाते हैं, भले ही आप वही आधार पैरामीटर चुनें, आपको एक पूरी तरह से नई आवाज़ मिलती है जो पहले मौजूद नहीं थी।
नीचे कुछ उदाहरण दिए गए हैं कि इस तरह से आवाज़ें कैसे डिज़ाइन की जा सकती हैं:
'डिज़ाइन वॉइस' इस फरवरी में हमारे प्लेटफ़ॉर्म पर वॉइस लैब के हिस्से के रूप में उपलब्ध होगा।
हमारे टूल्स पहले से ही ऐसा भाषण उत्पन्न कर सकते हैं जो किसी भी इंसान की तरह जीवन जैसा हो और हम उम्मीद करते हैं कि कृत्रिम आवाज़ों के संभावित अनुप्रयोगों का क्षेत्र केवल विस्तारित होगा। इनमें से कई नए अनुप्रयोग, जैसे समाचार प्रकाशनों या विज्ञापनों के लिए ऑडियो रिकॉर्ड करना, यह आवश्यक होगा कि एक आवाज़ को एक विशेष ब्रांड या उपयोग-केस के साथ जोड़ा जाए और कहीं और उपयोग न किया जाए। अन्य उपयोग-केस, जैसे कहानी सुनाना और वीडियो गेम्स, विकास के शुरुआती चरण में लचीलापन और प्रयोग की स्वतंत्रता को प्राथमिकता देते हैं। इसलिए एक विशाल वर्चुअल स्पीकर सेट बनाने के बजाय, हमने यूज़र्स को यह तय करने का अंतिम अधिकार देने का निर्णय लिया कि कौन सी आवाज़ें उनके उद्देश्यों के लिए सबसे उपयुक्त हैं।
बुक लेखक अब न केवल अपने काम को आसानी से ऑडियो में बदलने का अवसर प्राप्त करते हैं बल्कि वे विशेष रूप से डिज़ाइन की गई कथन पर कलात्मक नियंत्रण भी बनाए रखते हैं। यह उनके दर्शकों को प्रकाशनों के साथ बातचीत करने के नए और दिलचस्प तरीके प्रदान करता है, साथ ही उन पुस्तकों की संख्या को भी बढ़ाता है जिन्हें हम सुनने का आनंद ले सकते हैं।
समाचार प्रकाशक ऑडियो में तेजी से कदम बढ़ा रहे हैं और अपनी प्रकाशनों का प्रतिनिधित्व करने के लिए विशिष्ट आवाज़ें चुनना एक महत्वपूर्ण कार्य है - कई श्रोता रूप और सामग्री दोनों को महत्व देते हैं। उतना ही महत्वपूर्ण है कि प्रकाशक अब यह सुनिश्चित कर सकते हैं कि एक विशेष आवाज़ केवल उन्हें ही प्रतिनिधित्व करती है।
वीडियो गेम डेवलपर्स अब कई मूक NPCs को आवाज़ दे सकते हैं, सभी आवश्यक टूल्स उनकी उंगलियों पर उपलब्ध हैं। न केवल वे गुणवत्ता से समझौता किए बिना अधिक लागत प्रभावी हो सकते हैं, बल्कि वे अब ऐसी आवाज़ें भी डिज़ाइन कर सकते हैं जो उनके द्वारा बनाए गए वर्चुअल दुनियाओं के लिए पूरी तरह से अनोखी हों।
विज्ञापन क्रिएटिव्स को विशेष अभियानों के लिए वॉइसओवर की आवश्यकता होती है, इसलिए विकास की शुरुआत में गूंजने वाली और उद्देश्य-निर्मित कथन डिज़ाइन करने में सक्षम होना एक महत्वपूर्ण लाभ है। वे अब कई आवाज़ों और डिलीवरी शैलियों के साथ तुरंत प्रयोग कर सकते हैं और अतिरिक्त संसाधनों को शामिल किए बिना।
से क्रिएटर्स जो सभी प्रकार की ऑडियो और वीडियो सामग्री का उत्पादन कर रहे हैं कॉर्पोरेट अधिकारी जो कंपनी संचार को आवाज़ देना चाहते हैं, अब विशेष उपयोग-केस के लिए अद्वितीय और अनुकूलित ऑडियो डिज़ाइन करने के अवसर अनंत हैं।
जैसे कि वॉइस क्लोनिंग इसके संभावित दुरुपयोग के परिणामों के बारे में डर पैदा करता है, वैसे ही कई लोग चिंतित हैं कि AI तकनीक का प्रसार पेशेवरों की आजीविका को खतरे में डाल देगा। Eleven में, हम एक ऐसे भविष्य को देखते हैं जिसमें वॉइस ऐक्टर्स अपनी आवाज़ों को विशिष्ट उपयोग के लिए स्पीच मॉडल्स को प्रशिक्षित करने के लिए लाइसेंस कर सकते हैं, शुल्क के बदले में। ग्राहक और स्टूडियो अभी भी खुशी से पेशेवर वॉइस टैलेंट को अपने प्रोजेक्ट्स में शामिल करेंगे और AI का उपयोग केवल तेज़ी से परिणाम प्राप्त करने और विकास के शुरुआती चरण में दिशा स्थापित करने की स्वतंत्रता में योगदान देगा। तकनीक यह बदल देगी कि बोले गए ऑडियो को कैसे डिज़ाइन और रिकॉर्ड किया जाता है, लेकिन तथ्य यह है कि वॉइस ऐक्टर्स को हर सत्र के लिए शारीरिक रूप से उपस्थित होने की आवश्यकता नहीं है, वास्तव में उन्हें एक समय में अधिक प्रोजेक्ट्स में शामिल होने की स्वतंत्रता देता है, साथ ही उनकी आवाज़ों को वास्तव में अमर बनाने की।
इसके अलावा, हम इस बात से उत्साहित हैं कि कई किताबें, समाचार, स्वतंत्र गेम्स और अन्य सामग्री जिनके लेखक और डेवलपर्स रिकॉर्डिंग लागत वहन नहीं कर सकते थे, अब एक अन्य माध्यम के माध्यम से सुलभ हो जाएंगे। इस बढ़ी हुई पहुंच के साथ प्रत्येक मामले में दर्शकों को व्यापक बनाने का अवसर आता है।
Eleven में, हम बौद्धिक संपदा अधिकारों का सम्मान करने और हमारी तकनीक के संभावित दुरुपयोग के खिलाफ सुरक्षा उपायों को लागू करने के लिए पूरी तरह से प्रतिबद्ध हैं:
भविष्य में हम अपने वॉइस जनरेटिंग और वॉइस क्लोनिंग मॉडल्स की क्षमताओं को मिलाने की योजना बना रहे हैं ताकि यूज़र्स अपनी खुद की आवाज़ को बढ़ा सकें। आप अपनी आवाज़ को क्लोन कर सकेंगे और फिर इसे किसी भी इच्छित प्रभाव के लिए हेरफेर कर सकेंगे। यदि आपको डर है कि आपकी प्राकृतिक बोलने की शैली थोड़ी एकरस है, तो आप इसमें विविधता जोड़ सकेंगे। यदि आपको रिकॉर्ड किया जाना पसंद नहीं है, तो आप आउटपुट को अधिक प्राकृतिक ध्वनि में हेरफेर कर सकेंगे। कोई भी व्यक्ति जिसे किसी भी उद्देश्य के लिए अपनी खुद की आवाज़ की विशेषता वाला ऑडियो उत्पन्न करने की आवश्यकता है, चाहे वह पूर्व-रिकॉर्डेड प्रस्तुति हो या ऑडियो संदेश, हमारे टूल्स के सूट का उपयोग करके एक बटन के क्लिक पर ऐसा कर सकेगा।
जैसे ही 2022 समाप्त हुआ, हम अपने बीटा-यूज़र्स को आपकी निरंतर भागीदारी और आपके फीडबैक के लिए धन्यवाद देना चाहते हैं। हम जो कई फीचर्स विकसित कर रहे हैं, वे आपके इनपुट और सुझावों के कारण हैं। हमें आपके साथ होने पर बहुत खुशी है और हम आपको सभी को नया साल मुबारक हो की शुभकामनाएं देते हैं।
Eleven Labs बीटा
जाएं यहां हमारे बीटा प्लेटफ़ॉर्म के लिए साइन अप करने और इसे खुद आज़माने के लिए। हम लगातार सुधार कर रहे हैं और सभी यूज़र इनसाइट हमारे लिए इस शुरुआती चरण में बहुत मूल्यवान हैं।

Reducing time to ticket resolution by 8x with multilingual conversational agents.
.webp&w=3840&q=95)
Yampa leverages ElevenLabs Flash V2.5 to scale human-like outbound voice agents with ultra-low latency and massive concurrency.