
Integrating external agents with ElevenLabs Agents' voice orchestration
Patterns for integrating ElevenLabs voice orchestration with complex and stateful agents
Eleven v3 ऑडियो टैग्स के साथ समय, लय, और जोर पर सूक्ष्म नियंत्रण। सपाट डिलीवरी को गतिशील, प्रदर्शनकारी सामग्री में बदलें।
बेहतरीन स्पीच सिर्फ़ क्या कहा जाता है इस पर निर्भर नहीं करती — यह कैसे कहा जाता है इस पर भी निर्भर करती है। Eleven v3 ऑडियो टैग्स के साथ, आप समय, लय, और जोर पर सूक्ष्म नियंत्रण प्राप्त करते हैं, जिससे आप एक लाइन की गति को सटीकता से आकार दे सकते हैं।
[pause], [rushed], [stammers], या [drawn out] जैसे टैग्स का उपयोग करके, आप यह समायोजित कर सकते हैं कि प्रत्येक वाक्य कैसे उतरता है — न केवल भावनात्मक रूप से, बल्कि लयबद्ध रूप से भी। यह नियंत्रण सपाट डिलीवरी को प्रदर्शन में बदल देता है।
डिलीवरी नियंत्रण स्पीच के प्रवाह को निर्देशित करने की क्षमता है — यह कितनी तेजी से चलती है, कहां रुकती है, कब जोर देती है। यह वही है जो एक लाइन को नाटकीय, आकस्मिक, तनावपूर्ण, या हास्यपूर्ण महसूस कराता है।
के साथ Eleven v3, डिलीवरी डिफ़ॉल्ट गति तक सीमित नहीं है। आप स्क्रिप्ट से ही सस्पेंस के लिए गति धीमी कर सकते हैं, तात्कालिकता के लिए तेज़ कर सकते हैं, या हास्य के लिए लय जोड़ सकते हैं।
उदाहरण: "ठीक है, तो जैसे मैंने आखिरकार उस गेम का लेवल 42 पार कर लिया जिसे मैंने कहा था कि मैं छोड़ दूंगा... एक महीने पहले। [हंसते हैं] और फिर अंतिम बॉस... बस... [गिगल] एक खरगोश था। [बड़ी हंसी] मैं नहीं कर सका। यह बहुत प्यारा था।"
यहां टैग्स गति और समय को आकार देते हैं — और यही लाइन को प्रभावी बनाता है।
टैग्स आपको उन सूक्ष्म संकेतों तक पहुंच देते हैं जिनका उपयोग मनुष्य स्वाभाविक रूप से स्पीच की गति को नियंत्रित करने के लिए करते हैं:
उदाहरण: "[drawn out] सोओओओ... आप कह रहे हैं... [संदेहपूर्ण स्वर] आपने आखिरी स्लाइस नहीं खाई?"
ये टैग्स आपको यह नियंत्रित करने की पूरी क्षमता देते हैं कि एक आवाज़ कैसी महसूस होती है।
कैसे एक लाइन दी जाती है, यह बदलने से यह कैसे समझी जाती है, यह बदल जाता है।
वही शब्द। अलग अर्थ। डिलीवरी नियंत्रण के साथ, स्वर शब्द चयन से नहीं, बल्कि समय और इरादे से उभरता है।
आप भावनात्मक या चरित्र संकेतों के साथ डिलीवरी-केंद्रित टैग्स को लेयर कर सकते हैं ताकि पूरे दृश्य को आकार दे सकें।
उदाहरण: [हिचकिचाते हुए][नर्वस] मैं... मुझे यकीन नहीं है कि यह काम करेगा। [गटकता है] लेकिन चलो कोशिश करते हैं।
या: [फुसफुसाते हुए][विराम] क्या आपने वह सुना? [जल्दी से] छुपो! अभी!
यह लय और प्रतिक्रिया का मिश्रण है जो प्रदर्शन को विश्वसनीय बनाता है।
Eleven v3 स्क्रिप्ट को एक स्कोर में बदल देता है — और डिलीवरी नियंत्रण वह है जिससे आप इसे संचालित करते हैं। चाहे आप ट्यूटोरियल, मोनोलॉग, या पंचलाइन लिख रहे हों, ऑडियो टैग्स आपको फ्रेम-बाय-फ्रेम सटीकता के साथ डिलीवरी प्रबंधित करने देते हैं।
निर्माताओं के लिए, इसका मतलब है कि एक लाइन कैसे खुलती है इस पर पूरा नियंत्रण। आप केवल यह नहीं लिख रहे हैं कि क्या होता है। आप इसकी गति सेट कर रहे हैं।
प्रोफेशनल वॉइस क्लोन्स (PVCs) वर्तमान में Eleven v3 के लिए पूरी तरह से अनुकूलित नहीं हैं, जिससे पहले के मॉडलों की तुलना में क्लोन गुणवत्ता कम हो सकती है। इस शोध पूर्वावलोकन चरण के दौरान, यदि आपको v3 फीचर्स का उपयोग करना है, तो आपके प्रोजेक्ट के लिए एक इंस्टेंट वॉइस क्लोन (IVC) या डिज़ाइन की गई आवाज़ ढूंढना सबसे अच्छा होगा। PVC का v3 के लिए अनुकूलन निकट भविष्य में आ रहा है।

Patterns for integrating ElevenLabs voice orchestration with complex and stateful agents

Exploring how AI audio can support the creative process
ElevenLabs द्वारा संचालित एजेंट्स