यह आवाज़ मौजूद नहीं है - जनरेटिव वॉइस AI

आखिरी अपडेट 1 दिस॰ 2025 • 9 मिनट पढ़ने का समय

हम अपना खुद का जनरेटिव मॉडल तैनात कर रहे हैं जो यूज़र्स को पूरी तरह से नई सिंथेटिक आवाज़ें डिज़ाइन करने देता है

Abstract colorful swirl with dropdown menus for gender, age, and accent, and a style, clarity, and stability slider.

हाल ही में ऐसा लगता है कि हर कोई जनरेटिव AI के बारे में बात कर रहा है। डीप लर्निंग से संचालित बड़े भाषा और टेक्स्ट-टू-इमेज मॉडल जैसे ChatGPT, Stable Diffusion, DALL-E और Midjourney ने टेक दुनिया और उससे बाहर काफी हलचल मचाई है। कई लोग इन्हें AI में हाल के सबसे महत्वपूर्ण विकासों में शामिल करते हैं। चाहे आप सहमत हों या नहीं, सामान्य भावना यह है कि कुछ बहुत शक्तिशाली प्रकट हुआ है। 2023 में हम ऐसे मॉडल्स के बारे में सुनेंगे जो आपको ड्रॉ करने या वीडियो बनाने में मदद कर सकते हैं। जैसे कि नवीनतम स्मार्टफोन के बारे में सवाल होते हैं, हम जल्द ही पूछेंगे कि नवीनतम फाउंडेशन मॉडल क्या है। फिर भी इस उत्साह के बीच, हमें लगता है कि जनरेटिव मीडिया में एक क्षेत्र है जो अभी भी कम चर्चित है: वॉइस AI। यह वह क्षेत्र भी है जिसमें हम नेता बनना चाहते हैं। Eleven में, हम हर दिन डीप लर्निंग तकनीकों द्वारा खोले गए संभावनाओं पर निर्भर करते हैं ताकि हमारी जीवन जैसी टेक्स्ट टू स्पीच और वॉइस क्लोनिंग टूल्स को शक्ति प्रदान कर सकें। और अब, हम अपना खुद का जनरेटिव मॉडल भी तैनात कर रहे हैं जो आपको पूरी तरह से नई सिंथेटिक आवाज़ें डिज़ाइन करने देता है।

वॉइस जनरेटर - एक आवाज़ डिज़ाइन करें

हमारे यूज़र्स रोज़ाना प्लेटफ़ॉर्म पर आते हैं ताकि अपने किरदारों को जीवंत बना सकें - चाहे वह ऑडियोबुक्स, गेम्स या फैन फिक्शन के लिए हो। हमने महसूस किया कि हमारा वर्तमान स्पीकर बैंक बहुत छोटा है ताकि हर कोई अपनी सामग्री की ज़रूरतों के अनुसार आवाज़ें पा सके और प्रत्येक यूज़र के लिए विशेष बनी रहे। हमारा समाधान था कि आप पूरी तरह से नई सिंथेटिक आवाज़ें डिज़ाइन कर सकें।

हमारे पास एक विचार था कि हम इसे कैसे करेंगे जो हमें वर्तमान में स्पीच सिंथेसिस और वॉइस क्लोनिंग के लिए उपयोग की जाने वाली विधियों को खोलते समय आया। दोनों प्रक्रियाओं के लिए एक विशेष आवाज़ की विशेषताओं को एन्कोड करने का तरीका चाहिए। स्पीकर एम्बेडिंग्स इस पहचान को ले जाते हैं - वे एक स्पीकर की आवाज़ का वेक्टर प्रतिनिधित्व हैं। हमने महसूस किया कि हम स्पीकर एम्बेडिंग्स के वितरण से नमूना ले सकते हैं और एक समर्पित मॉडल को प्रशिक्षित करके अनंत नई आवाज़ें बना सकते हैं।

चूंकि हमारे यूज़र्स ज्यादातर विशिष्ट भाषण विशेषताओं की तलाश करते हैं, हमें प्रक्रिया पर नियंत्रण की एक डिग्री जोड़ने की आवश्यकता थी। हमने अपने मॉडल को कंडीशनिंग के साथ विस्तारित किया ताकि उनकी विशेषताओं के आधार पर आवाज़ें उत्पन्न की जा सकें। मॉडल अब आपको कुछ बुनियादी पैरामीटर सेट करने देता है जो नई आवाज़ की मुख्य पहचान स्थापित करते हैं: लिंग, उम्र, उच्चारण, पिच और बोलने की शैली। दूसरे शब्दों में, हर बार जब आप 'जनरेट' दबाते हैं, भले ही आप वही आधार पैरामीटर चुनें, आपको एक पूरी तरह से नई आवाज़ मिलती है जो पहले मौजूद नहीं थी।

नीचे कुछ उदाहरण दिए गए हैं कि इस तरह से आवाज़ें कैसे डिज़ाइन की जा सकती हैं:

'डिज़ाइन वॉइस' इस फरवरी में हमारे प्लेटफ़ॉर्म पर वॉइस लैब के हिस्से के रूप में उपलब्ध होगा।

इसका उपयोग क्या है?

हमारे टूल्स पहले से ही ऐसा भाषण उत्पन्न कर सकते हैं जो किसी भी इंसान की तरह जीवन जैसा हो और हम उम्मीद करते हैं कि कृत्रिम आवाज़ों के संभावित अनुप्रयोगों का क्षेत्र केवल विस्तारित होगा। इनमें से कई नए अनुप्रयोग, जैसे समाचार प्रकाशनों या विज्ञापनों के लिए ऑडियो रिकॉर्ड करना, यह आवश्यक होगा कि एक आवाज़ को एक विशेष ब्रांड या उपयोग-केस के साथ जोड़ा जाए और कहीं और उपयोग न किया जाए। अन्य उपयोग-केस, जैसे कहानी सुनाना और वीडियो गेम्स, विकास के शुरुआती चरण में लचीलापन और प्रयोग की स्वतंत्रता को प्राथमिकता देते हैं। इसलिए एक विशाल वर्चुअल स्पीकर सेट बनाने के बजाय, हमने यूज़र्स को यह तय करने का अंतिम अधिकार देने का निर्णय लिया कि कौन सी आवाज़ें उनके उद्देश्यों के लिए सबसे उपयुक्त हैं।

बुक लेखक अब न केवल अपने काम को आसानी से ऑडियो में बदलने का अवसर प्राप्त करते हैं बल्कि वे विशेष रूप से डिज़ाइन की गई कथन पर कलात्मक नियंत्रण भी बनाए रखते हैं। यह उनके दर्शकों को प्रकाशनों के साथ बातचीत करने के नए और दिलचस्प तरीके प्रदान करता है, साथ ही उन पुस्तकों की संख्या को भी बढ़ाता है जिन्हें हम सुनने का आनंद ले सकते हैं।

समाचार प्रकाशक ऑडियो में तेजी से कदम बढ़ा रहे हैं और अपनी प्रकाशनों का प्रतिनिधित्व करने के लिए विशिष्ट आवाज़ें चुनना एक महत्वपूर्ण कार्य है - कई श्रोता रूप और सामग्री दोनों को महत्व देते हैं। उतना ही महत्वपूर्ण है कि प्रकाशक अब यह सुनिश्चित कर सकते हैं कि एक विशेष आवाज़ केवल उन्हें ही प्रतिनिधित्व करती है।

वीडियो गेम डेवलपर्स अब कई मूक NPCs को आवाज़ दे सकते हैं, सभी आवश्यक टूल्स उनकी उंगलियों पर उपलब्ध हैं। न केवल वे गुणवत्ता से समझौता किए बिना अधिक लागत प्रभावी हो सकते हैं, बल्कि वे अब ऐसी आवाज़ें भी डिज़ाइन कर सकते हैं जो उनके द्वारा बनाए गए वर्चुअल दुनियाओं के लिए पूरी तरह से अनोखी हों।

विज्ञापन क्रिएटिव्स को विशेष अभियानों के लिए वॉइसओवर की आवश्यकता होती है, इसलिए विकास की शुरुआत में गूंजने वाली और उद्देश्य-निर्मित कथन डिज़ाइन करने में सक्षम होना एक महत्वपूर्ण लाभ है। वे अब कई आवाज़ों और डिलीवरी शैलियों के साथ तुरंत प्रयोग कर सकते हैं और अतिरिक्त संसाधनों को शामिल किए बिना।

से क्रिएटर्स जो सभी प्रकार की ऑडियो और वीडियो सामग्री का उत्पादन कर रहे हैं कॉर्पोरेट अधिकारी जो कंपनी संचार को आवाज़ देना चाहते हैं, अब विशेष उपयोग-केस के लिए अद्वितीय और अनुकूलित ऑडियो डिज़ाइन करने के अवसर अनंत हैं।

एथिकल AI

जैसे कि वॉइस क्लोनिंग इसके संभावित दुरुपयोग के परिणामों के बारे में डर पैदा करता है, वैसे ही कई लोग चिंतित हैं कि AI तकनीक का प्रसार पेशेवरों की आजीविका को खतरे में डाल देगा। Eleven में, हम एक ऐसे भविष्य को देखते हैं जिसमें वॉइस ऐक्टर्स अपनी आवाज़ों को विशिष्ट उपयोग के लिए स्पीच मॉडल्स को प्रशिक्षित करने के लिए लाइसेंस कर सकते हैं, शुल्क के बदले में। ग्राहक और स्टूडियो अभी भी खुशी से पेशेवर वॉइस टैलेंट को अपने प्रोजेक्ट्स में शामिल करेंगे और AI का उपयोग केवल तेज़ी से परिणाम प्राप्त करने और विकास के शुरुआती चरण में दिशा स्थापित करने की स्वतंत्रता में योगदान देगा। तकनीक यह बदल देगी कि बोले गए ऑडियो को कैसे डिज़ाइन और रिकॉर्ड किया जाता है, लेकिन तथ्य यह है कि वॉइस ऐक्टर्स को हर सत्र के लिए शारीरिक रूप से उपस्थित होने की आवश्यकता नहीं है, वास्तव में उन्हें एक समय में अधिक प्रोजेक्ट्स में शामिल होने की स्वतंत्रता देता है, साथ ही उनकी आवाज़ों को वास्तव में अमर बनाने की।

इसके अलावा, हम इस बात से उत्साहित हैं कि कई किताबें, समाचार, स्वतंत्र गेम्स और अन्य सामग्री जिनके लेखक और डेवलपर्स रिकॉर्डिंग लागत वहन नहीं कर सकते थे, अब एक अन्य माध्यम के माध्यम से सुलभ हो जाएंगे। इस बढ़ी हुई पहुंच के साथ प्रत्येक मामले में दर्शकों को व्यापक बनाने का अवसर आता है।

Eleven में, हम बौद्धिक संपदा अधिकारों का सम्मान करने और हमारी तकनीक के संभावित दुरुपयोग के खिलाफ सुरक्षा उपायों को लागू करने के लिए पूरी तरह से प्रतिबद्ध हैं:

हम केवल उन ग्राहकों के साथ साझेदारी करते हैं जो हमारे नियमों का पालन करते हैं जो हमारी तकनीक के किसी भी अवैध या हानिकारक उद्देश्य के लिए दुरुपयोग को रोकते हैं;
हम अपने मॉडल द्वारा उत्पन्न सभी ऑडियो को वॉटरमार्क करने पर भी काम कर रहे हैं ताकि इसे तुरंत हमारे पास वापस ट्रेस किया जा सके;
जब हम पहचानने योग्य आवाज़ों का उपयोग करते हैं, तो हम ऐसा प्रदर्शन उद्देश्यों के लिए और उन संदर्भों में करते हैं जो हितों के टकराव को जन्म नहीं देते;
साथ ही हम वॉइस मालिकों और उनके लाइसेंसर्स का समर्थन करने का प्रयास करते हैं ताकि वे अपने अधिकारों का दावा कर सकें और सभी ज्ञात उल्लंघनों की समीक्षा और कार्रवाई की जाएगी।

आगे देखते हुए - अपनी खुद की आवाज़ को बढ़ाएं

भविष्य में हम अपने वॉइस जनरेटिंग और वॉइस क्लोनिंग मॉडल्स की क्षमताओं को मिलाने की योजना बना रहे हैं ताकि यूज़र्स अपनी खुद की आवाज़ को बढ़ा सकें। आप अपनी आवाज़ को क्लोन कर सकेंगे और फिर इसे किसी भी इच्छित प्रभाव के लिए हेरफेर कर सकेंगे। यदि आपको डर है कि आपकी प्राकृतिक बोलने की शैली थोड़ी एकरस है, तो आप इसमें विविधता जोड़ सकेंगे। यदि आपको रिकॉर्ड किया जाना पसंद नहीं है, तो आप आउटपुट को अधिक प्राकृतिक ध्वनि में हेरफेर कर सकेंगे। कोई भी व्यक्ति जिसे किसी भी उद्देश्य के लिए अपनी खुद की आवाज़ की विशेषता वाला ऑडियो उत्पन्न करने की आवश्यकता है, चाहे वह पूर्व-रिकॉर्डेड प्रस्तुति हो या ऑडियो संदेश, हमारे टूल्स के सूट का उपयोग करके एक बटन के क्लिक पर ऐसा कर सकेगा।

नया साल मुबारक हो

जैसे ही 2022 समाप्त हुआ, हम अपने बीटा-यूज़र्स को आपकी निरंतर भागीदारी और आपके फीडबैक के लिए धन्यवाद देना चाहते हैं। हम जो कई फीचर्स विकसित कर रहे हैं, वे आपके इनपुट और सुझावों के कारण हैं। हमें आपके साथ होने पर बहुत खुशी है और हम आपको सभी को नया साल मुबारक हो की शुभकामनाएं देते हैं।

Eleven Labs बीटा
जाएं यहां हमारे बीटा प्लेटफ़ॉर्म के लिए साइन अप करने और इसे खुद आज़माने के लिए। हम लगातार सुधार कर रहे हैं और सभी यूज़र इनसाइट हमारे लिए इस शुरुआती चरण में बहुत मूल्यवान हैं।

ElevenLabs टीम के लेखों को देखें

Agents Platform Stories

Agents Platform Stories

Revolut selects ElevenLabs Agents to bolster customer support

Reducing time to ticket resolution by 8x with multilingual conversational agents.

API Platform Stories

API Platform Stories

Yampa is scaling high-intensity outbound voice intelligence with ElevenLabs

Yampa leverages ElevenLabs Flash V2.5 to scale human-like outbound voice agents with ultra-low latency and massive concurrency.

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें