Eleven v3 ऑडियो टैग्स क्या हैं — और ये क्यों ज़रूरी हैं

आखिरी अपडेट 21 जन॰ 2026 • 5 मिनट पढ़ने का समय

A man with glasses and a beard looking to the side in a room with bookshelves.

ElevenLabs के ऑडियो टैग्स से आप AI वॉइस की भावना, गति और साउंड इफेक्ट्स कंट्रोल कर सकते हैं।

के साथ Eleven v3 के रिलीज़ होने पर, ऑडियो प्रॉम्प्टिंग अब एक ज़रूरी स्किल बन गई है। अब आपको AI वॉइस से जो भी कहना है, उसे टाइप या पेस्ट करने की बजाय, आप एक नई सुविधा — ऑडियो टैग्स — का इस्तेमाल कर सकते हैं, जिससे आप भावना से लेकर डिलीवरी तक सब कंट्रोल कर सकते हैं।

Eleven v3 एक अल्फा रिलीज़ है रिसर्च प्रीव्यू नए मॉडल का। इसमें पिछले मॉडल्स के मुकाबले ज़्यादा प्रॉम्प्ट इंजीनियरिंग की ज़रूरत है — लेकिन रिजल्ट्स शानदार हैं।

ElevenLabs ऑडियो टैग्स वे शब्द होते हैं जिन्हें स्क्वायर ब्रैकेट्स में लिखा जाता है और नया Eleven v3 मॉडल इन्हें समझकर ऑडियो में इस्तेमाल करता है। ये कुछ भी हो सकते हैं जैसे [excited], [whispers], [sighs], [gunshot], [clapping], या [explosion]।

ऑडियो टैग्स से आप AI वॉइस की आवाज़ को अपनी पसंद के हिसाब से ढाल सकते हैं, जिसमें टोन, पॉज़ और गति जैसे नॉनवर्बल संकेत भी शामिल हैं। चाहे आप इमर्सिव ऑडियोबुक बना रहे हों, इंटरएक्टिव कैरेक्टर्स या डायलॉग-बेस्ड मीडिया, ये आसान स्क्रिप्ट-लेवल टूल्स आपको भावना और डिलीवरी पर पूरा कंट्रोल देते हैं।

ऑडियो टैग्स से परफॉर्मेंस डायरेक्ट करें

आप अपने स्क्रिप्ट में कहीं भी ऑडियो टैग्स डाल सकते हैं और रियल टाइम में डिलीवरी को ढाल सकते हैं। आप एक ही स्क्रिप्ट या वाक्य में कई टैग्स भी इस्तेमाल कर सकते हैं। टैग्स मुख्य रूप से इन कैटेगरी में आते हैं:

भावनाएँ

इन टैग्स से आप वॉइस का इमोशनल टोन सेट कर सकते हैं — चाहे वो गंभीर हो, तेज़ हो या खुशमिज़ाज। उदाहरण के लिए आप [sad], [angry], [happily] और [sorrowful] जैसे टैग्स का एक साथ या अलग-अलग इस्तेमाल कर सकते हैं।

डिलीवरी डायरेक्शन

ये टैग्स टोन और परफॉर्मेंस से जुड़े होते हैं। आप इनसे वॉल्यूम और एनर्जी को एडजस्ट कर सकते हैं, खासकर उन सीन के लिए जहां संयम या जोश चाहिए। उदाहरण: [whispers], [shouts] या [x accent]।

मानव प्रतिक्रियाएँ

सच्ची नैचुरल स्पीच में रिएक्शन्स भी होते हैं। आप इन्हें इस्तेमाल करके स्पीच में नैचुरल, अनस्क्रिप्टेड मोमेंट्स जोड़ सकते हैं। जैसे: [laughs], [clears throat], [sighs]।

और ज़्यादा एक्सप्रेसिव मॉडल पर आधारित

इन फीचर्स के पीछे v3 की नई आर्किटेक्चर है। यह मॉडल टेक्स्ट के कॉन्टेक्स्ट को गहराई से समझता है, जिससे यह भावना, टोन शिफ्ट और स्पीकर ट्रांजिशन को और नैचुरल तरीके से फॉलो कर सकता है। ऑडियो टैग्स के साथ मिलकर, यह TTS में पहले से कहीं ज़्यादा एक्सप्रेसिवनेस देता है।

अब आप मल्टी-स्पीकर डायलॉग्स भी बना सकते हैं जो स्पॉन्टेनियस लगते हैं — इंटरप्शन, मूड शिफ्ट और कन्वर्सेशनल नूअंस को बहुत कम प्रॉम्प्टिंग में संभाल सकते हैं।

अब उपलब्ध

प्रोफेशनल वॉइस क्लोन्स (PVCs) अभी पूरी तरह Eleven v3 के लिए ऑप्टिमाइज़ नहीं हैं, जिससे क्लोन क्वालिटी पिछले मॉडल्स के मुकाबले कम हो सकती है। रिसर्च प्रीव्यू के दौरान, अगर आपको v3 फीचर्स चाहिए तो बेहतर होगा कि आप इंस्टेंट वॉइस क्लोन (IVC) या डिज़ाइन की गई वॉइस का इस्तेमाल करें। PVC का v3 के लिए ऑप्टिमाइज़ेशन जल्द ही आ रहा है।

Eleven v3 अब ElevenLabs UI में उपलब्ध है, और हम जून के अंत तक 80% की छूट दे रहे हैं। Eleven v3 (अल्फा) के लिए पब्लिक API भी उपलब्ध है। चाहे आप एक्सपेरिमेंट कर रहे हों या बड़े पैमाने पर डिप्लॉय, अभी नए फीचर्स आज़माने का सही समय है।

ऑडियो टैग्स बनाना

AI स्पीच बनाना जो सिर्फ पढ़ती नहीं, बल्कि परफॉर्म भी करती है ऑडियो टैग्स को अच्छे से समझने पर निर्भर करता है। हमने सात छोटे, प्रैक्टिकल गाइड्स बनाए हैं जो दिखाते हैं कि कैसे [WHISPER], [LAUGHS SOFTLY], या [French accent] जैसे टैग्स से आप एक ही मॉडल में कॉन्टेक्स्ट, भावना, गति और मल्टी-कैरेक्टर डायलॉग्स को ढाल सकते हैं।

सीरीज़ देखें

सिचुएशनल अवेयरनेस – जैसे टैग्स [WHISPER], [SHOUTING], और [SIGH] Eleven v3 को मौके के हिसाब से रिएक्ट करने देते हैं—कहीं इंटेंसिटी बढ़ाना, कहीं चेतावनी को सॉफ्ट करना या सस्पेंस के लिए पॉज़ लेना।
कैरेक्टर परफॉर्मेंस – [pirate voice] से लेकर [French accent] तक, टैग्स नैरेशन को रोल-प्ले में बदल देते हैं। एक ही लाइन में पर्सोना बदलें और बिना मॉडल बदले फुल कैरेक्टर परफॉर्मेंस डायरेक्ट करें।
इमोशनल कॉन्टेक्स्ट – जैसे संकेत [sigh], [excited], या [tired] हर पल की भावना को गाइड करते हैं, टेंशन, राहत या ह्यूमर जोड़ते हैं—फिर से रिकॉर्डिंग की ज़रूरत नहीं।
नैरेटिव इंटेलिजेंस – कहानी सुनाने में टाइमिंग ज़रूरी है। जैसे टैग्स [pause], [awe], या [dramatic tone] रिदम और इम्पहसिस कंट्रोल करते हैं ताकि AI वॉइस हर बीट पर लिस्नर को गाइड कर सके।
मल्टी-कैरेक्टर डायलॉग – ओवरलैपिंग लाइन्स और तेज़ बातचीत लिखें [interrupting], [overlapping], या टोन स्विच के साथ। एक ही मॉडल, कई आवाज़ें—एक ही टेक में नैचुरल कन्वर्सेशन।
डिलीवरी कंट्रोल – गति और इम्पहसिस को फाइन-ट्यून करें। जैसे टैग्स [pause], [rushed], या [drawn out] से आप टेम्पो पर सटीक कंट्रोल पाते हैं, जिससे सिंपल टेक्स्ट भी परफॉर्मेंस बन जाता है।
एक्सेंट एमुलेशन – तुरंत रीजन बदलें—[American accent], [British accent], [Southern US accent] और भी बहुत कुछ—कल्चरल टच के साथ स्पीच, बिना मॉडल बदले।

ElevenLabs टीम के लेखों को देखें

रिसोर्सेज़

रिसोर्सेज़

Eleven v3 ऑडियो टैग्स: AI ऑडियो को स्थिति की जानकारी देना

Eleven v3 ऑडियो टैग्स के साथ AI स्पीच को बेहतर बनाएं। प्राकृतिक बातचीत के लिए टोन, भावना, और गति को नियंत्रित करें। अपने टेक्स्ट टू स्पीच में स्थिति की जानकारी जोड़ें।

Agents Platform Stories

Agents Platform Stories

Revolut selects ElevenLabs Agents to bolster customer support

Reducing time to ticket resolution by 8x with multilingual conversational agents.

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें