मिलिए KUBI से — कन्वर्सेशनल रोबोट बारिस्ता

आखिरी अपडेट 21 जन॰ 2026 • 6 मिनट पढ़ने का समय

A smiling man in a blue polo shirt and black cap standing outdoors in front of a modern building.

KUBI एक कन्वर्सेशनल बारिस्ता है जो ElevenLabs की कन्वर्सेशनल AI के साथ काम करता है। जानिए कैसे।

A robotic arm holding a can of Red Bull energy drink against a blue background.

इस पेज पर

परिचय
KUBI कैसे काम करता है
सभी को जोड़ने के लिए एक सेंट्रल इवेंट-ड्रिवन कोर
- BigBoy ऐसे काम करता है:
- लचीला और एक्स्टेंडेबल
- DevOps और ऑब्ज़र्वेबिलिटी
यादगार बातचीत के लिए ElevenLabs का इस्तेमाल
- टेक्स्ट टू स्पीच (TTS)
- कन्वर्सेशनल मोड (रियल-टाइम)
- कस्टम कन्वर्सेशनल टूल्स
KUBI को नए मार्केट्स में ले जाना
निष्कर्ष

KUBI एक कन्वर्सेशनल रोबोट बारिस्ता और रिसेप्शनिस्ट है Second Space में, जो कि काओह्सिओंग, ताइवान में एक अगली पीढ़ी का 24/7 को-वर्किंग स्पेस है। क्योंकि यह वर्कस्पेस पूरी तरह ऑटोमेटेड है, इसलिए KUBI — जो मेंबर्स से पहली बार मिलता है — के लिए एक अलग, दोस्ताना एहसास देना बहुत जरूरी है। इसी वजह से Second Space ने ElevenLabs की कन्वर्सेशनल AI चुनी ताकि मेंबर्स के साथ मज़ेदार और यादगार बातचीत हो सके। चलिए, KUBI को एक्शन में देखते हैं।

KUBI कैसे काम करता है

KUBI एक एडवांस्ड मल्टी-सेंसरी आर्किटेक्चर का इस्तेमाल करता है ताकि इंसानों जैसी बातचीत हो सके। यह सिस्टम माइक्रोसर्विसेज़ आर्किटेक्चर पर चलता है, जिसमें अलग-अलग सर्विसेज़ एक साथ काम करती हैं और रियल-टाइम इवेंट स्ट्रीम के ज़रिए आपस में बात करती हैं। ये सर्विसेज़ कई काम संभालती हैं, जैसे रियल-टाइम AI इंफरेंस से फेस और ऑब्जेक्ट पहचानना, कैमरा से कप डिटेक्शन और चेक करना, रसीद प्रिंट करना, एक्सेस कंट्रोल के लिए सिक्योर फेसियल रिकग्निशन, और दूध व बीन्स डिस्पेंसर का सटीक कंट्रोल।

ये कुछ सर्विसेज़ हैं जो एक साथ चल रही हैं:

एनवायरनमेंट कैमरा सर्विस: रियल-टाइम AI इंफरेंस (Python में PyTorch) से चेहरे और ऑब्जेक्ट पहचानती है।
टैबलेट कैमरा सर्विस: लगभग वैसी ही, लेकिन टेबल पर कप, बाहरी चीज़ें और यह चेक करती है कि KUBI रोबोट सच में कप पकड़े है या नहीं।
रसीद प्रिंटिंग सर्विस: सिंपल और भरोसेमंद, Node + Typescript से बनी। RS232 थर्मल प्रिंटर से कनेक्ट होती है।
पेमेंट सर्विस: Kotlin JVM से बनी, जिससे concurrency और type safety मिलती है। सरकारी रसीद रिपोर्टिंग और क्रेडिट कार्ड टर्मिनल, क्रिप्टो पेमेंट गेटवे या ऑनलाइन पेमेंट प्रोवाइडर से कनेक्शन संभालती है।
मिल्क & बीन्स डिस्पेंसर: अलग-अलग प्रिसिशन सर्विसेज़ — Arduino पर। टाइम-सेंसिटिव, कम लेटेंसी।
फेसियल रिकग्निशन: सिक्योर और strongly typed Kotlin सर्विस, एक्सेस कंट्रोल के लिए।
वॉटर जेट सर्विस: दूध के जग को इस्तेमाल के बाद ऑटोमैटिकली साफ करती है — Arduino।
और भी कई सर्विसेज़, जैसे मोबाइल ऐप API, मेन्यू डिस्प्ले आदि…

इतनी सारी माइक्रोसर्विसेज़ क्यों? आसान है — हम इन्हें अलग-अलग मैनेज कर सकते हैं, आसानी से स्केल कर सकते हैं, और हर काम के लिए सबसे अच्छा टूल इस्तेमाल कर सकते हैं।

सभी को जोड़ने के लिए एक सेंट्रल इवेंट-ड्रिवन कोर

इन सभी माइक्रोसर्विसेज़ को एक सेंट्रल सर्विस कोऑर्डिनेट करती है, जिसे मज़ाक में कहा जाता है "BigBoy"। यह असल में एक बड़ा, नॉन-ब्लॉकिंग इवेंट प्रोसेसर है:

BigBoy ऐसे काम करता है:

सभी सर्विसेज़ से आने वाले इवेंट्स को सुनता है।
सीनारियो के लिए ट्रिगर चेक करता है।
सबसे अच्छा सीनारियो चुनता है।
एक्शन प्लेबैक के लिए शेड्यूल करता है।

1
2internal object WeatherIdleScenario: SingleTaskScenario(scenario){
3   
4    importance = Importance.Medium
5    compilationTimeout = Time.ThreeSeconds
6    interruptable = false
7    exeutionExpiration = = Time.TenSeconds
8   
9    override fun isEligible(event: Event, environment: Environment): Maybe<Boolean> = withEnvironment(environment) {
10        just {
11            (event is IdleEvent 
12                    && !triggeredInLast(40.minutes) 
13                    && (personPresent() || hasActiveSessions) 
14                    && environment.weatherService.lastReportWithin(10.minutes))
15        }
16    }
17}
18
19private val scenario = ScenarioRecipe { event, env, session ->
20
21
22    invokeOneOf(
23       
24        phrase {
25              sayWith { 
26                "Rainy day today, isn't it? That's why I have my little umbrella! Look!".asEnglish
27              }.withAutoGift().withAutoMotion()
28        }.given { Weather.isRaining() },
29
30        phrase {
31            sayWith {
32                "Friend, it's so cold outside! So sad for you... because you're a human. I don't really mind!".asEnglish
33            }.withAutoMotion()
34
35           sayWith {
36                "Wait, that soudned a bit rude.".asEnglish
37            }.withAutoMotion()
38
39        }.given { Weather.isCold() },
40
41    )
42
43
44}
45
46

सीनारियो क्या हैं?

सीनारियो को ऐसे समझिए जैसे रोबोट के लिए नॉन-ब्लॉकिंग कंपाइलर एक्शन इवेंट्स के लिए। एक एक्शन इवेंट आमतौर पर सबसे आखिरी इवेंट होता है, जो किसी फिजिकल असर जैसे मूवमेंट या बोलने का कारण बनता है। जैसे, एक ग्रीटिंग सीनारियो में ये ट्रिगर हो सकता है:

    SayEvent("Hello! Welcome!", wave.gif)

    MotionEvent(HelloMotion)

LLM से इवेंट जेनरेशन: कुछ एक्शन इवेंट्स LLM से ऑटोमैटिकली बनते हैं, जैसे withAutoMotion दिए गए कॉन्टेक्स्ट के हिसाब से प्री-डिफाइंड लिस्ट से सबसे अच्छा मूवमेंट चुनता है। वहीं withAutoGif LLM का इस्तेमाल कर सबसे उपयुक्त टैग बनाता है, जिससे Giphy पर GIF मिलती है, जो बाद में KUBI के चेहरे पर उस वाक्य के साथ दिखती है।

एक्शन इवेंट्स का सिंक्रोनाइज़ेशन: ये इवेंट्स फिर एक शेड्यूलर से होकर गुजरते हैं, जो स्पीच, फेस एक्सप्रेशन और मूवमेंट को सिंक्रोनाइज़ रखता है। इससे KUBI की स्पीच उसके इशारों से पूरी तरह मेल खाती है।

लचीला और एक्स्टेंडेबल

सबसे अच्छी बात ये है कि सीनारियो एक्शन इवेंट्स को सुन सकते हैं और नए एक्शन इवेंट्स डायनामिकली ट्रिगर कर सकते हैं। जैसे:

अगर BigBoy को SayEvent("Merry Christmas") दिखता है, तो वह अपने आप कमरे में फेस्टिव लाइट्स और स्पेशल इफेक्ट्स चालू कर सकता है।
एक और मज़ेदार उदाहरण — अगर यूज़र हमारे मोबाइल ऐप से ऑर्डर करता है, तो उसके सारे इंटरैक्शन (प्रोडक्ट पर क्लिक, पेमेंट आदि) इवेंट्स में बदल जाते हैं और BigBoy तुरंत रिएक्ट कर सकता है। जैसे, अगर यूज़र “Oatmilk Latte” पर स्क्रॉल करता है, तो KUBI कह सकता है “क्या आप वाकई Oatmilk Latte नहीं लेना चाहते? ये बहुत अच्छा है!”

BigBoy सचमुच सब कुछ देख और समझ सकता है। है ना कमाल?

DevOps और ऑब्ज़र्वेबिलिटी

ज्यादातर सर्विसेज़ लोकली होस्टेड हैं और डॉकर कंटेनर में चलती हैं। कंटेनर में, इनका लाइफसाइकल Supervisor प्रोसेस कंट्रोल सिस्टम से मैनेज होता है। एरर लॉग्स Sentry में इकट्ठा होते हैं और एक कस्टम एडमिन ऐप में भेजे जाते हैं, जिससे किसी भी एक्सेप्शन, सर्विसेज़ और सेंसर्स की रियल-टाइम स्थिति और लेटेंसी रिपोर्टिंग देखी जा सकती है। सबसे मज़ेदार बात — Flutter ऐप 90% AI से जेनरेट हुई है।

यादगार बातचीत के लिए ElevenLabs का इस्तेमाल

Second Space ने KUBI के लिए एक खास पर्सनैलिटी सोची थी — Deadpool, Portal गेम के Wheatley और Apex Legends के Pathfinder का मिक्स। उन्होंने सिर्फ 15 मिनट में वॉइस डिज़ाइन कर ली, जिसमें इमोशंस और पॉज़ भी थे, जिससे वॉइस और भी इंसानी लगी।

ElevenLabs KUBI की स्पीच कोर APIs से पावर देता है:

टेक्स्ट टू स्पीच (TTS)

हमारी लगभग 90% बातचीत यही संभालता है।
परफेक्ट माहौल के लिए प्री-डिज़ाइन सीनारियो का इस्तेमाल करता है।
LLM से बने मैसेज पर्सनलाइज़ किए जा सकते हैं, हाई-क्वालिटी ऑडियो, बेहतरीन उच्चारण, और समय की कोई जल्दी नहीं।
इंग्लिश, चाइनीज़, स्पैनिश, जापानी और यहां तक कि लैटवियन में भी बेहद नैचुरल मल्टी-लैंग्वेज स्पीच देता है (लैटवियन Deadpool चाहिए?)

कन्वर्सेशनल मोड (रियल-टाइम)

जब कोई ग्राहक कहता है, "Hey KUBI!", ElevenLabs की कन्वर्सेशनल AI 200ms में जवाब दे सकती है, जिससे बातचीत सच में इंसानों जैसी लगती है।

प्राथमिकता: कम लेटेंसी.
रिस्पॉन्सिवनेस के लिए थोड़ी ऑडियो क्वालिटी कम हो सकती है।
ElevenLabs के नए रियल-टाइम language_detection टूल का इस्तेमाल करती है, जिससे अलग-अलग भाषाएं तुरंत संभाली जा सकती हैं।
कन्वर्सेशनल AI सेशन ऑन डिमांड शुरू होता है जब कोई मेंबर फैसिलिटी में आता है या “Hey, KUBI!” कहता है।

कस्टम कन्वर्सेशनल टूल्स

ElevenLabs की कन्वर्सेशनल AI को WebSocket कनेक्शन से इस्तेमाल कर, KUBI फंक्शन कॉलिंग कर सकता है, जैसे:

make_order: ऑर्डर पहचानता है, इवेंट्स सीधे BigBoy को भेजता है।
make_payment: हमारी PaymentService को तुरंत सूचित करता है ताकि पेमेंट के लिए क्रेडिट कार्ड मशीन चालू हो जाए।

ElevenLabs के एडमिन पैनल से अलग-अलग LLM मॉडल्स के बीच आसानी से स्विच करने से Second Space को समझ और सटीकता ऑप्टिमाइज़ करने में मदद मिलती है, क्योंकि हमने देखा कि अलग-अलग मॉडल्स टूल intents को अलग-अलग पहचानते हैं। अभी वे Gemini 2.0 Flash को कन्वर्सेशनल AI के लिए और ChatGPT 4o को स्टैटिक स्पीच जेनरेशन के लिए इस्तेमाल कर रहे हैं।

KUBI को नए मार्केट्स में ले जाना

Second Space के पहले GitHub कमिट्स, जिनमें ElevenLabs का ज़िक्र है, जनवरी 2023 के हैं — multilanguage मॉडल आने से भी पहले। उन्होंने शुरू से ही ElevenLabs की क्वालिटी को पहचाना और भविष्य में मल्टी-लैंग्वेज सपोर्ट के लिए आर्किटेक्चर तैयार किया। अब, जापान और साउथ कोरिया जैसे मार्केट्स में जाना बस एक स्विच ऑन करने जितना आसान है — कोई एक्स्ट्रा डेवलपमेंट नहीं चाहिए!

निष्कर्ष

माइक्रोसर्विसेज़, रियल-टाइम इवेंट्स और ElevenLabs की दमदार वॉइस टेक्नोलॉजी से KUBI सच में ज़िंदा जैसा लगता है और हर कॉफी व मज़ेदार बातचीत के साथ दुनिया को जीतने और खुश करने के लिए तैयार है।

ElevenLabs टीम के लेखों को देखें

Agents Platform Stories

Agents Platform Stories

Revolut selects ElevenLabs Agents to bolster customer support

Reducing time to ticket resolution by 8x with multilingual conversational agents.

API Platform Stories

API Platform Stories

Yampa is scaling high-intensity outbound voice intelligence with ElevenLabs

Yampa leverages ElevenLabs Flash V2.5 to scale human-like outbound voice agents with ultra-low latency and massive concurrency.

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें

1
2	internal object WeatherIdleScenario: SingleTaskScenario(scenario){
3
4	importance = Importance.Medium
5	compilationTimeout = Time.ThreeSeconds
6	interruptable = false
7	exeutionExpiration = = Time.TenSeconds
8
9	override fun isEligible(event: Event, environment: Environment): Maybe<Boolean> = withEnvironment(environment) {
10	just {
11	(event is IdleEvent
12	&& !triggeredInLast(40.minutes)
13	&& (personPresent() \|\| hasActiveSessions)
14	&& environment.weatherService.lastReportWithin(10.minutes))
15	}
16	}
17	}
18
19	private val scenario = ScenarioRecipe { event, env, session ->
20
21
22	invokeOneOf(
23
24	phrase {
25	sayWith {
26	"Rainy day today, isn't it? That's why I have my little umbrella! Look!".asEnglish
27	}.withAutoGift().withAutoMotion()
28	}.given { Weather.isRaining() },
29
30	phrase {
31	sayWith {
32	"Friend, it's so cold outside! So sad for you... because you're a human. I don't really mind!".asEnglish
33	}.withAutoMotion()
34
35	sayWith {
36	"Wait, that soudned a bit rude.".asEnglish
37	}.withAutoMotion()
38
39	}.given { Weather.isCold() },
40
41	)
42
43
44	}
45
46