कॉन्टेंट पर जाएं

मल्टीमोडल कन्वर्सेशनल AI पेश कर रहे हैं

अब हमारे AI एजेंट एक साथ स्पीच शब्दों और टेक्स्ट इनपुट्स को आसानी से प्रोसेस कर सकते हैं, जिससे यूज़र इंटरैक्शन और भी नेचुरल, असरदार और मजबूत हो जाता है।

Multimodal

आज ElevenLabs अपने कन्वर्सेशनल AI प्लेटफॉर्म में एक बड़ा अपडेट लेकर आया है: असली टेक्स्ट और वॉइस मल्टीमोडैलिटी की शुरुआत। अब हमारे AI एजेंट बोले गए शब्दों और टाइप किए गए टेक्स्ट, दोनों इनपुट्स को एक साथ समझ और प्रोसेस कर सकते हैं। यह फीचर यूज़र्स के लिए और भी नेचुरल, फ्लेक्सिबल और असरदार इंटरैक्शन देने के लिए बनाया गया है, ताकि अलग-अलग ज़रूरतों में आसानी हो।

सिर्फ वॉइस इंटरैक्शन की सीमाएं

भले ही वॉइस कम्युनिकेशन का एक ताकतवर और सहज तरीका है, सिर्फ वॉइस वाले AI एजेंट कुछ खास परिस्थितियों में चुनौतियों का सामना कर सकते हैं। हमने बिज़नेस में इनकी कुछ आम दिक्कतें देखी हैं, जैसे:

  • ट्रांसक्रिप्शन में गलतियां: सिर्फ वॉइस के ज़रिए ईमेल एड्रेस, आईडी या ट्रैकिंग नंबर जैसी खास अल्फान्यूमेरिक जानकारी बिल्कुल सही कैप्चर करना मुश्किल हो सकता है। ऐसी गलतियों से बाद में गलत कस्टमर रिकॉर्ड जैसी बड़ी दिक्कतें हो सकती हैं।
  • कॉम्प्लेक्स इनपुट्स के लिए यूज़र एक्सपीरियंस: यूज़र से लंबी नंबर सीरीज़, जैसे क्रेडिट कार्ड डिटेल्स, वॉइस में बोलने के लिए कहना काफी झंझट भरा और गलती वाला अनुभव हो सकता है।

मल्टीमोडैलिटी की ताकत: टेक्स्ट और वॉइस साथ में

एजेंट्स को टेक्स्ट और वॉइस दोनों प्रोसेस करने की सुविधा देकर, हम यूज़र्स को अपनी सुविधा के हिसाब से इनपुट चुनने की आज़ादी देते हैं। इस हाइब्रिड तरीके से बातचीत और भी स्मूद और मजबूत बनती है। यूज़र आराम से बोल सकते हैं, और जब सटीकता ज़रूरी हो या टाइप करना आसान लगे, तो उसी बातचीत में टेक्स्ट इनपुट पर स्विच कर सकते हैं।

मुख्य फायदे

टेक्स्ट और वॉइस मल्टीमोडैलिटी के ये खास फायदे हैं:

  • इंटरैक्शन की सटीकता बढ़े: यूज़र उन जानकारियों को टाइप कर सकते हैं जिन्हें बोलना मुश्किल हो या जिनमें ट्रांसक्रिप्शन की गलती हो सकती है।
  • बेहतर यूज़र एक्सपीरियंस: ज्यादा फ्लेक्सिबिलिटी मिलती है, जिससे इंटरैक्शन और नेचुरल लगता है, खासकर सेंसिटिव या कॉम्प्लेक्स डेटा एंट्री के लिए।
  • टास्क पूरा होने की दर बढ़े: गलतियां और झंझट कम होते हैं, जिससे रिज़ल्ट्स बेहतर मिलते हैं।
  • बातचीत का नेचुरल फ्लो: इनपुट टाइप्स के बीच आसानी से स्विच किया जा सकता है, जैसे इंसान बातचीत में करते हैं।

मुख्य फीचर्स

हमारे मल्टीमोडल कन्वर्सेशनल AI में ये सुविधाएं शामिल हैं:

  • साथ-साथ प्रोसेसिंग: एजेंट्स वॉइस और टेक्स्ट इनपुट्स को एक साथ रियल-टाइम में समझ और जवाब दे सकते हैं।
  • आसान सेटअप: टेक्स्ट इनपुट को विजेट सेटिंग्स में एक सिंपल ऑप्शन से ऑन किया जा सकता है।
  • सिर्फ टेक्स्ट मोड: जरूरत हो तो एजेंट्स को पारंपरिक टेक्स्ट-आधारित चैटबॉट की तरह सेट किया जा सकता है।

आसान इंटीग्रेशन और डिप्लॉयमेंट

यह नया मल्टीमोडल फीचर हमारे प्लेटफॉर्म पर पहले से ही सपोर्टेड है:

  • विजेट: सिर्फ एक लाइन HTML से डिप्लॉय करें।
  • SDKs: डेवलपर्स के लिए पूरी सपोर्ट, ताकि गहराई से इंटीग्रेट कर सकें।
  • WebSocket: रियल-टाइम, दोनों तरफ से कम्युनिकेशन जिसमें मल्टीमोडल फीचर्स भी हैं।

लीडिंग प्लेटफॉर्म पर आगे बढ़ते हुए

मल्टीमोडल इंटरैक्शन हमारे कन्वर्सेशनल AI प्लेटफॉर्म की सभी मौजूदा इनोवेशन का फायदा उठाते हैं:

  • इंडस्ट्री-लीडिंग वॉइस: 32 से ज्यादा भाषाओं में सबसे बेहतरीन वॉइस एक्सेस करें।
  • एडवांस्ड स्पीच मॉडल्स: हमारे लेटेस्ट स्पीच टू टेक्स्ट और टेक्स्ट टू स्पीच टेक्नोलॉजी का इस्तेमाल।
  • ग्लोबल इन्फ्रास्ट्रक्चर: पहले से ही Twilio और SIP ट्रंकिंग इन्फ्रास्ट्रक्चर के साथ हर जगह उपलब्ध।

शुरुआत कैसे करें

अपने ElevenLabs कन्वर्सेशनल AI एजेंट्स:

  1. की विजेट सेटिंग्स में जाएं।
  2. "Allow Text Input" ऑप्शन को ऑन करें।

हमें भरोसा है कि टेक्स्ट+वॉइस मल्टीमोडैलिटी से कन्वर्सेशनल AI की क्षमताएं और यूज़र एक्सपीरियंस काफी बेहतर होगा। हम देखना चाहते हैं कि हमारे यूज़र इस नए फीचर का कैसे इस्तेमाल करते हैं।

ElevenLabs टीम के लेखों को देखें

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें