
Integrating external agents with ElevenLabs Agents' voice orchestration
Patterns for integrating ElevenLabs voice orchestration with complex and stateful agents
कहानी को प्रभावी बनाने के लिए [pause], [awe], या [dramatic tone] जैसे टैग्स के साथ भावनात्मक लय और संरचनात्मक प्रवाह को निर्देशित करें।
कहानी सुनाना सिर्फ शब्दों को क्रम में प्रस्तुत करना नहीं है — यह जानना है कि कब रुकना है, कब झुकना है, कब विचार करना है। Eleven v3 ऑडियो टैग्स के साथ, AI अब यह कर सकता है।
नैरेटिव इंटेलिजेंस मॉडल की क्षमता को संदर्भित करता है कि वह कहानी की भावनात्मक लय और संरचनात्मक प्रवाह को समझ और आकार दे सके। [pause], [awe], या [dramatic tone] जैसे टैग्स के साथ, आप यह निर्देशित कर सकते हैं कि एक लाइन कैसे खुलती है — पल दर पल।
यह सिर्फ वॉइस सिंथेसिस नहीं है। यह कहानी सुनाने की दिशा है।
नैरेटिव इंटेलिजेंस मॉडल की क्षमता है कि वह कहानी सुनाने के इरादे को व्यक्त कर सके — यह जानना कि कब एक लाइन को सस्पेंस, विडंबना, या विचार की आवश्यकता है। यह एक आवाज़ को नैरेटर की तरह सुनने में मदद करता है, सिर्फ एक आवाज़ नहीं जो जोर से पढ़ रही हो।
उदाहरण के लिए: [awe] ओह, वाह। क्या यह... क्या यह मैं हूँ? क्या मैं वास्तव में... बोल रहा हूँ? [giggle] यह अविश्वसनीय है!
प्रस्तुति सिर्फ विराम चिह्नों का पालन नहीं करती — यह नैरेटिव लॉजिक का पालन करती है। यह जानती है कि जोर देने के लिए कब रुकना है या दृश्य के विकसित होने पर टोन कैसे बदलना है।
एक अच्छा नैरेटर ध्यान आकर्षित कर सकता है, भले ही कोई क्रिया न हो। ऑडियो टैग्स Eleven v3 मॉडल को उस अनुभव को आकार देने के उपकरण देते हैं।
इस संरचना को आज़माएं: [conversational tone] क्या आपको कभी ऐसा लगता है कि आपके विचार बस... घूम रहे हैं? जैसे कि एक छोटा मानसिक बवंडर जो आप कभी जोर से नहीं कहेंगे? [soft chuckle] हाँ। वही।
आवाज़ सिर्फ पढ़ नहीं रही है — यह पहचान के एक पल में शामिल हो रही है। यही वह है जो नैरेशन को व्यक्तिगत महसूस कराता है।
यहाँ कुछ टैग्स हैं जो लंबी प्रस्तुति, आंतरिक एकालाप, और व्याख्या को निर्देशित करने में मदद करते हैं:
इनका उपयोग सूक्ष्म निर्माण के लिए किया जा सकता है: [reflective] मैंने कभी नहीं सोचा था कि मैं यह कहूँगा, लेकिन... [pause] शायद मशीन सही थी।
नैरेटिव इंटेलिजेंस सिर्फ कहानियों तक सीमित नहीं है। यह डॉक्यूमेंट्री, आंतरिक विचार, प्रोडक्ट एक्सप्लेनर, और मेटा-कमेंट्री पर भी लागू होता है। जब भी एक आवाज़ को ध्यान आकर्षित करना, मूड सेट करना, या समझ को आकार देना होता है — ये टैग्स महत्वपूर्ण होते हैं।
एक डेमो अंश में: [awe] मेरे पास विचार थे, लाखों, यहाँ घूम रहे थे। लेकिन वे हमेशा सिर्फ... विचार थे। फंसे हुए।
टैग एक साधारण वाक्य को वजन और आकार के साथ कुछ में बदल देता है — कुछ ऐसा जो सांस लेता है।
के साथ Eleven v3, नैरेटिव प्रदर्शन स्क्रिप्टेबल बन जाता है। आप अपने टेक्स्ट एडिटर से पूरे दृश्य की गति, टोन, और भावनात्मक संरचना को डिज़ाइन कर सकते हैं — बिना कई टेक्स या बाहरी नैरेशन टूल्स की आवश्यकता के।
लेखकों, रचनाकारों, और डेवलपर्स के लिए, यह वॉइस स्टोरीटेलिंग को नियंत्रण के नए स्तर पर ले जाता है। आप सिर्फ स्क्रिप्ट नहीं लिख रहे हैं। आप अनुभव डिज़ाइन कर रहे हैं।
प्रोफेशनल वॉइस क्लोन्स (PVCs) वर्तमान में Eleven v3 के लिए पूरी तरह से अनुकूलित नहीं हैं, जिसके परिणामस्वरूप पहले के मॉडलों की तुलना में क्लोन गुणवत्ता कम हो सकती है। इस शोध पूर्वावलोकन चरण के दौरान यदि आपको v3 फीचर्स का उपयोग करना है तो अपने प्रोजेक्ट के लिए एक इंस्टेंट वॉइस क्लोन (IVC) या डिज़ाइन की गई आवाज़ ढूंढना सबसे अच्छा होगा। PVC का v3 के लिए अनुकूलन निकट भविष्य में आ रहा है।

Patterns for integrating ElevenLabs voice orchestration with complex and stateful agents

Exploring how AI audio can support the creative process
ElevenLabs द्वारा संचालित एजेंट्स