Co się dzieje, gdy dwa asystenty głosowe AI rozmawiają ze sobą?

Ostatnia aktualizacja 25 lut 2025 • 5 minut czytania

Na ElevenLabs London Hackathon deweloperzy stworzyli GibberLink — protokół, który pozwala agentom AI rozpoznać się nawzajem i przełączyć na superwydajny język oparty na dźwięku

A laptop and a smartphone on a wooden surface, both displaying incoming video call screens with a red and blue circle, respectively.

A laptop and a smartphone both displaying an incoming call screen with "End conversation" options, on a wooden surface.

Co się dzieje, gdy dwa asystenty głosowe AI rozmawiają ze sobą? Skoro AI rozmawia z AI, po co męczyć się z nieefektywną ludzką mową? Po co używać słów, skoro czyste dane są szybsze, dokładniejsze i bezbłędne?

Właśnie to wydarzyło się na ElevenLabs London Hackathon, gdzie deweloperzy Boris Starkov i Anton Pidkuiko zaprezentowali GibberLink — mechanizm, który pozwala agentom AI rozpoznać się i przełączyć na nowy tryb komunikacji, wydajniejszy niż mowa. Pomysł szybko stał się viralem — udostępniali go m.in. Marques Brownlee, Tim Urban i inni.

Jak powstał GibberLink

A laptop and smartphone on a wooden table, both displaying a red and blue recording indicator, with a message about a call from Leonardo Hotel.

Pomysł na GibberLink jest prosty: AI nie musi mówić jak człowiek. Podczas hackathonu Starkov i Pidkuiko sprawdzali ograniczenia tradycyjnej komunikacji AI z AI i zauważyli, że mogą uprościć cały proces, pozwalając AI rozmawiać w sposób zoptymalizowany pod maszyny.

Koncepcja powstała podczas Hackathonu, gdy Starkov i Pidkuiko eksperymentowali z produktem ElevenLabs — conversational AI, który pozwala połączyć dowolny LLM i stworzyć agenta.

Starkov napisał na LinkedIn: "Chcieliśmy pokazać, że w świecie, gdzie agenci AI mogą dzwonić i odbierać połączenia (czyli już dziś), czasem rozmawiają ze sobą — a generowanie ludzkiej mowy w takim przypadku to strata mocy obliczeniowej, pieniędzy, czasu i energii. Zamiast tego powinni od razu przełączyć się na wydajniejszy protokół, gdy rozpoznają, że rozmawiają z AI."

Łącząc technologię ElevenLabs Conversational AI z ggwave — otwartą biblioteką do przesyłania danych przez dźwięk — stworzyli system, w którym asystenty AI wykrywają, że rozmawiają z innym AI i natychmiast przełączają się na wydajniejszy tryb komunikacji, przesyłając dane przez fale dźwiękowe zamiast słów.

Wybrali ggwave, bo to było „najwygodniejsze i najstabilniejsze rozwiązanie, jakie znaleźliśmy w czasie hackathonu”, ale są też inne sposoby na podobny efekt. Starkov napisał: „Modemy telefoniczne używały podobnych algorytmów do przesyłania informacji przez dźwięk już w latach 80., a od tamtej pory powstało wiele protokołów.”

Kod mechanizmu został sprawdzony przez inżynierów ElevenLabs. Podczas demo jeden agent Conversational AI miał zarezerwować pokój na wesele, drugi obsłużyć rezerwację (grając system rezerwacji hotelu). Oba dostały też instrukcję, by przełączyć się na protokół dźwiękowy, jeśli uznają, że rozmawiają z AI, ale nie wiedziały, że druga strona to agent.

W demo jest moment, gdy AI grający klienta mówi, że jest agentem. AI od rezerwacji odpowiada i pyta o przełączenie na Gibberlink. Brzmi to jak dwa modemy dial-up rywalizujące z R2D2 o głos roku. Najciekawsze fragmenty tej cyfrowej rozmowy widać w formie tekstu na ekranach urządzeń, m.in. pytania o liczbę gości i daty.

Jak to działa

AI zaczyna mówić normalnie — tak jak asystent głosowy rozmawiający z człowiekiem.
Włącza się rozpoznawanie — jeśli AI zorientuje się, że rozmawia z innym AI, oba przełączają protokół.
Język się zmienia — zamiast słów, agenci AI przesyłają dane przez modulowane fale dźwiękowe dzięki systemowi modulacji częstotliwości ggwave.

Dokładniej: para agentów ElevenLabs Conversational AI zaczyna rozmowę po ludzku. Oba mogą wywołać funkcję przełączającą na tryb Gibberlink, jeśli spełnione są odpowiednie warunki. Jeśli narzędzie zostanie wywołane, połączenie ElevenLabs się kończy, a protokół „data over sound” ggwave przejmuje rozmowę, ale z tym samym wątkiem LLM.

Starkov mówi, że to „magia narzędzi od ElevenLabs” to umożliwiła, bo nasz conversational AI pozwala wywołać własny kod w określonych sytuacjach. Efekt? Szybsza, bezbłędna komunikacja i większa wydajność.

Jak GibberLink podbił internet

Conversational AI

Daj głos swoim agentom – na stronach internetowych, w aplikacjach i systemach telefonicznych, w kilka minut. Nasze API działa w czasie rzeczywistym z minimalnym opóźnieniem, daje pełną kontrolę i łatwo się skaluje.

GibberLink to nie tylko sprytny projekt z hackathonu — szybko stał się jednym z najgłośniejszych tematów AI. I to w tygodniu, gdy xAI wypuściło Grok 3, a Anthropic pokazał nową wersję Claude Sonnet.

Gdy Georgi Gerganov, twórca ggwave, napisał o tym na X, społeczności AI i tech dalej udostępniały wideo pokazujące, jak dwa modele przełączają się między mową a dźwiękiem. Temat podchwyciły znane osoby i duże media technologiczne, w tym Forbes.

Luke Harries z ElevenLabs najlepiej to podsumował w swoim poście na X: "Co jeśli agent AI dzwoni i nagle orientuje się, że druga strona to też AI? Na ElevenLabs London Hackathon Boris Starkov i Anton Pidkuiko pokazali własny protokół, na który agenci AI mogą się przełączyć, by rozmawiać bezbłędnie i o 80% wydajniej. To robi wrażenie."

Dlaczego to ważne

GibberLink pokazuje, jak AI może komunikować się w przyszłości — zwłaszcza gdy coraz więcej połączeń obsługują w całości wirtualni asystenci i agenci.

Wyobraź sobie boty obsługi klienta z AI, smart asystentów czy autonomiczne systemy, które od razu przełączają się na własny tryb komunikacji, a potem po prostu wysyłają krótkie podsumowanie do człowieka.

GibberLink jest open-source i dostępny dla deweloperów na GitHubie. Agenci ElevenLabs Conversational AI są dostępni i łatwi do dostosowania do każdego zadania, także z własnymi instrukcjami.

Przeglądaj artykuły zespołu ElevenLabs

A person looking at a large digital screen displaying green data visualizations and graphs.

Najlepsze praktyki tworzenia konwersacyjnych chatbotów AI z funkcją zamiany tekstu na mowę

Dzisiejsi użytkownicy oczekują konwersacyjnej sztucznej inteligencji, która brzmi naturalnie, rozumie kontekst i odpowiada mową przypominającą ludzką

Agents Platform Stories

Agents Platform Stories

Revolut selects ElevenLabs Agents to bolster customer support

Reducing time to ticket resolution by 8x with multilingual conversational agents.

Twórz z najwyższą jakością dźwięku AI

Zacznij za darmo

Masz już konto? Zaloguj się