
पेश है Eleven Turbo v2.5
32 भाषाओं में उच्च गुणवत्ता, कम विलंबता टेक्स्ट टू स्पीच
दो नए प्रोडक्ट लॉन्च की तुलना, ताकि आप अपनी ज़रूरत के हिसाब से सबसे अच्छा प्रोडक्ट चुन सकें
18 अक्टूबर, 2024 तक अपडेटेड
पिछले महीने कन्वर्सेशनल AI की दुनिया में दो बड़े प्रोडक्ट लॉन्च हुए - हमारा कन्वर्सेशनल AI ऑर्केस्ट्रेशन प्लेटफॉर्म और OpenAI का Realtime API। हमने यह पोस्ट इसलिए बनाई है ताकि आप दोनों के बीच फर्क समझ सकें और अपने लिए सबसे सही विकल्प चुन सकें।
ये दोनों प्रोडक्ट्स आपको रियलटाइम कन्वर्सेशनल वॉइस एजेंट. ElevenLabs कन्वर्सेशनल AI इसे मुमकिन बनाता है एक ऑर्केस्ट्रेशन प्लेटफॉर्म के ज़रिए, जो स्पीच को स्पीच टू टेक्स्ट से ट्रांसक्रिप्ट में बदलता है, उस ट्रांसक्रिप्ट को आपकी पसंद के LLM और कस्टम नॉलेज बेस के साथ भेजता है, और फिर LLM के जवाब को टेक्स्ट टू स्पीच से आवाज़ देता है। यह एक एंड-टू-एंड समाधान है जिसमें पिछले कॉल्स की मॉनिटरिंग और एनालिटिक्स शामिल हैं, और जल्द ही टेस्टिंग फ्रेमवर्क और फोन इंटीग्रेशन भी मिलेगा।
| Feature | ElevenLabs Conv AI | OpenAI Realtime |
|---|---|---|
| Total Number of Voices | 3k+ | 6 |
| LLMs Supported | Bring your own server or choose from any leading provider | OpenAI models only |
| Call tracking and analytics | Yes, built-in dashboard | No, must build using API |
| Latency | 1-3 seconds depending on network latency and size of knowledge base | Likely faster due to no transcription step |
| Price | 8.8 cents per minute on business, with discounts for high volume (+LLM cost) | ~15 cents per minute (6 cents per minute input, 24 cents per minute output) |
| Voice Cloning | Yes, bring your own voice with a PVC | No voice cloning |
| API Access | Yes, all plans | Yes, all plans |
जब हमारा कन्वर्सेशनल AI स्पीच को टेक्स्ट में बदलता है, तो कुछ जानकारी खो जाती है, जैसे इमोशन, टोन और उच्चारण। क्योंकि OpenAI का Realtime API सीधे स्पीच से स्पीच में जाता है, कोई कॉन्टेक्स्ट नहीं खोता। यह कुछ खास मामलों में बेहतर है, जैसे नई भाषा सीखते समय उच्चारण सुधारना या थेरेपी में इमोशन पहचानना और जवाब देना।
जब आप Realtime API का इस्तेमाल करते हैं, तो पूरी कन्वर्सेशनल एक्सपीरियंस के लिए आप OpenAI की इंफ्रास्ट्रक्चर का ही इस्तेमाल करते हैं। इसमें किसी और कंपनी का LLM जोड़ना या अपना खुद का LLM लाना संभव नहीं है, क्योंकि Realtime API सिर्फ ऑडियो इनपुट लेता है और ऑडियो आउटपुट देता है।
हमारे कन्वर्सेशनल AI प्लेटफॉर्म में आप कभी भी अपने मॉडल का LLM बदल सकते हैं (OpenAI के मॉडल भी इस्तेमाल कर सकते हैं)। जैसे-जैसे Anthropic, OpenAI, Google, NVIDIA और बाकी कंपनियां सबसे बेहतर LLM बनाने की होड़ में हैं, आप कभी भी अपडेट कर सकते हैं ताकि आप हमेशा लेटेस्ट टेक्नोलॉजी का इस्तेमाल करें।
और जिन कंपनियों ने परफॉर्मेंस या प्राइवेसी के लिए अपना खुद का इन-हाउस फाइन-ट्यून LLM बनाया है, वे ElevenLabs के कन्वर्सेशनल AI प्लेटफॉर्म के साथ उसे जोड़ सकते हैं, लेकिन OpenAI के Realtime API के साथ नहीं।
किसी भी मॉडल की लेटेंसी जांचते समय दो बातें ध्यान में रखें
(1) क्या एवरेज लेटेंसी इतनी कम है कि यूज़र को स्मूद एक्सपीरियंस मिले?
(2) लेटेंसी में कितना उतार-चढ़ाव आता है और P90 और P99 लेटेंसी पर यूज़र एक्सपीरियंस कैसा रहता है?
OpenAI Realtime API का एक फायदा यह है कि इसमें स्पीच को टेक्स्ट में बदलने का इंटरमीडिएट स्टेप नहीं है, इसलिए इसकी ओवरऑल लेटेंसी कम हो सकती है।
हालांकि, इसका एक नुकसान लचीलापन है, जैसा हमने पहले बताया। पिछले कुछ हफ्तों की टेस्टिंग में, 40-mini हमारे कन्वर्सेशनल AI प्लेटफॉर्म के साथ सबसे कम लेटेंसी वाला LLM था। इस हफ्ते इसकी लेटेंसी दोगुनी हो गई, जिससे हमारे यूज़र्स ने Gemini Flash 1.5 पर स्विच किया। Realtime API में आप तेज़ LLM पर स्विच नहीं कर सकते।
यह भी ध्यान दें कि आपके कन्वर्सेशनल AI ऐप्लिकेशन की एंड-टू-एंड लेटेंसी सिर्फ आपके प्रोवाइडर पर नहीं, बल्कि आपके एजेंट के नॉलेज बेस के साइज और आपके नेटवर्क कंडीशन्स पर भी निर्भर करती है।
OpenAI के Realtime API में अभी 6 वॉइस विकल्प हैं। हमारी वॉइस लाइब्रेरी में 3,000 से ज़्यादा वॉइसेज़ हैं। आप प्रोफेशनल वॉइस क्लोनिंग से अपनी खुद की कस्टम वॉइस भी इस्तेमाल कर सकते हैं। इसका मतलब है कि Realtime API में आप अपनी ब्रांड या कंटेंट के लिए यूनिक वॉइस नहीं चुन सकते।
Realtime API में ऑडियो इनपुट की कीमत $100 प्रति 1M टोकन है और आउटपुट की $200 प्रति 1M टोकन। यह लगभग $0.06 प्रति मिनट ऑडियो इनपुट और $0.24 प्रति मिनट ऑडियो आउटपुट के बराबर है।
ElevenLabs कन्वर्सेशनल AI पर फ्री प्लान में 15 मिनट शुरू करने के लिए मिलते हैं। बिज़नेस प्लान में 13,750 मिनट कन्वर्सेशनल AI ($0.08 प्रति मिनट) मिलते हैं, एक्स्ट्रा मिनट्स भी $0.08 में, और ज्यादा वॉल्यूम पर कीमत और कम हो जाती है।
हर कॉल के अंत में, Realtime API JSON फॉर्मेट में इवेंट्स भेजता है जिनमें टेक्स्ट और ऑडियो के हिस्से होते हैं, जैसे ट्रांसक्रिप्ट, रिकॉर्डिंग और किए गए फंक्शनल कॉल्स। आपको खुद ही यह जानकारी पढ़नी, प्रोसेस करनी, रिपोर्ट बनानी और अपनी टीम के लिए दिखानी होगी।
हमारे प्लेटफॉर्म में कॉल की सफलता जांचने, स्ट्रक्चर्ड डेटा निकालने और उसे ट्रांसक्रिप्ट, समरी और रिकॉर्डिंग के साथ हमारे डैशबोर्ड में दिखाने की सुविधा पहले से है, ताकि आपकी टीम आसानी से रिव्यू कर सके।

32 भाषाओं में उच्च गुणवत्ता, कम विलंबता टेक्स्ट टू स्पीच

Reducing time to ticket resolution by 8x with multilingual conversational agents.