
Revolut selects ElevenLabs Agents to bolster customer support
Reducing time to ticket resolution by 8x with multilingual conversational agents.
प्राकृतिक बातचीत के लिए टोन, भावना, और गति को नियंत्रित करें। अपने टेक्स्ट टू स्पीच में कैरेक्टर परफॉर्मेंस जोड़ें।
ऑडियो टैग्स Eleven v3 (अल्फा) में एक शक्तिशाली टूल हैं, जो ElevenLabs का नया रिसर्च प्रीव्यू टेक्स्ट टू स्पीच मॉडल है। ये तत्व न केवल टोन और गति बल्कि कैरेक्टर और वोकल परफॉर्मेंस पर सटीक दिशा निर्देश देते हैं।
[पाइरेट वॉइस], [फ्रेंच एक्सेंट], या [व्यंग्यात्मक] जैसे टैग्स के साथ, वॉइस केवल वर्णन नहीं बल्कि कहानी कहने का एक उपकरण बन जाती है। एक मजबूत कैरेक्टर वॉइस क्लोन के साथ, आप केवल ध्वनि ही नहीं, बल्कि एक पूरी परफॉर्मेंस को कैप्चर कर सकते हैं।
ये टैग्स वोकल आइडेंटिटी को मिड-लाइन में बदलने, एक्सेंट्स की नकल करने, या खलनायक, कथाकार, या सहायक पात्र जैसे आर्केटाइप्स में झुकने की अनुमति देते हैं — बिना मूल स्क्रिप्ट को बदले या अलग वॉइस में स्विच किए।
कैरेक्टर परफॉर्मेंस एक भूमिका में कदम रखने की क्षमता है। चाहे आप एक रंगीन खलनायक, एक कठोर समुद्री कप्तान, या मेलबर्न के एक स्थानीय दुकानदार की आवाज़ दे रहे हों, नए ऑडियो टैग्स आपको उस व्यक्तित्व के अनुरूप डिलीवरी को निर्देशित करने देते हैं जिसे आप व्यक्त करना चाहते हैं।
एक साधारण ब्रैकेटेड वाक्यांश के साथ, आप दृश्य सेट कर सकते हैं: “[पाइरेट वॉइस] अरे, खुला समुद्र। इसे सूंघो, दोस्तों? यह स्वतंत्रता की खुशबू है... और बस विद्रोह की एक झलक।”
मॉडल केवल शब्दों का उच्चारण नहीं करता — यह उन्हें कैरेक्टर में परफॉर्म करता है।
वॉइस परफॉर्मेंस केवल वॉल्यूम या भावना के बारे में नहीं है। यह भी महत्वपूर्ण है कि कौन बोल रहा है। Eleven v3 के साथ, आप तुरंत विशिष्ट एक्सेंट्स, बोलियों, और बोलने की शैलियों को संकेत दे सकते हैं। उदाहरण के लिए:
[अमेरिकन एक्सेंट] क्या आप पुराने मॉडल में मेरा एक्सेंट बदल सकते थे? [उपेक्षात्मक] नहीं लगता। [ऑस्ट्रेलियन एक्सेंट] लेकिन अब आप कर सकते हैं — इसे देखें, दोस्त! [फ्रेंच एक्सेंट] मेरा प्यार... लाल, लाल गुलाब की तरह है।
इस तरह की तरल पहचान-स्विचिंग एनीमेशन, गेम्स, इंटरैक्टिव फिक्शन, या किसी भी क्षण के लिए आदर्श है जहां वक्ता की व्यक्तित्व महत्वपूर्ण है।
कैरेक्टर-केंद्रित टैग्स आपको वोकल आइडेंटिटी और उपस्थिति को आकार देने की अनुमति देते हैं:
टैग्स की लेयरिंग से कैरेक्टर्स को जीवंत बनाने में मदद मिलती है: “[नाटकीय][फ्रेंच एक्सेंट] आप नहीं समझते... यह कभी बदले के बारे में नहीं था। यह नियति के बारे में था।”
मल्टी-कैरेक्टर स्क्रिप्ट्स में, ऑडियो टैग्स के साथ आवाज़ों के बीच स्विच करना आसान हो जाता है। केवल कैरेक्टर परफॉर्मेंस को मिड-डायलॉग में स्विच करके तनाव, हास्य, या आश्चर्य जोड़ें — कोई अतिरिक्त संपादन की आवश्यकता नहीं।
डेमो से यह अंश लें: "जेसिका: [हंसते हुए] वह... सुंदर था। डॉ. वॉन फ्यूजन: [नाटकीय] होना या न होना — यही सवाल है! जेसिका: [फ्रेंच एक्सेंट] यह शानदार है, है ना?"
जो पहले एक पूर्ण कास्ट की आवश्यकता होती थी, अब एक ही वॉइस ट्रैक में स्क्रिप्ट किया जा सकता है — बिना रेंज या गहराई को खोए।
Eleven v3 डायनामिक वोकल बदलाव, संदर्भीय शिफ्ट्स, और कैरेक्टर्स के बीच लगातार डिलीवरी का समर्थन करता है। इसका मतलब है कि मॉडल न केवल समझता है क्या कहना है — बल्कि कैसे प्रत्येक कैरेक्टर को इसे कहना चाहिए।
क्रिएटर्स के लिए, यह नियंत्रण का एक नया आयाम खोलता है। आप केवल संवाद नहीं लिख रहे हैं। आप परफॉर्मेंस को निर्देशित कर रहे हैं।
प्रोफेशनल वॉइस क्लोन्स (PVCs) वर्तमान में Eleven v3 के लिए पूरी तरह से अनुकूलित नहीं हैं, जिसके परिणामस्वरूप पहले के मॉडलों की तुलना में क्लोन गुणवत्ता कम हो सकती है। इस रिसर्च प्रीव्यू चरण के दौरान, यदि आपको v3 फीचर्स का उपयोग करना है, तो अपने प्रोजेक्ट के लिए एक इंस्टेंट वॉइस क्लोन (IVC) या डिज़ाइन की गई आवाज़ ढूंढना सबसे अच्छा होगा। PVC का v3 के लिए अनुकूलन निकट भविष्य में आ रहा है।

Reducing time to ticket resolution by 8x with multilingual conversational agents.
.webp&w=3840&q=95)
Yampa leverages ElevenLabs Flash V2.5 to scale human-like outbound voice agents with ultra-low latency and massive concurrency.