Gå till innehåll

Vad händer när två AI-röstassistenter pratar med varandra?

På ElevenLabs hackathon i London skapade utvecklare GibberLink, ett protokoll som låter AI-agenter känna igen varandra och byta till ett supereffektivt ljudbaserat språk.

A laptop and a smartphone both displaying an incoming call screen with "End conversation" options, on a wooden surface.

Vad händer när två AI-röstassistenter har en konversation? Om AI pratar med AI, varför använda det ineffektiva mänskliga språket? Varför använda ord när ren data är snabbare, mer exakt och felfri?

Det var precis det som hände på ElevenLabs hackathon i London, där utvecklarna Boris Starkov och Anton Pidkuiko presenterade GibberLink, en mekanism som gör att AI-agenter kan känna igen varandra och byta till ett nytt kommunikationsläge – mer effektivt än talat språk. Idén spreds snabbt och delades av bland andra Marques Brownlee, Tim Urban och flera andra.

A laptop and smartphone on a wooden table, both displaying a red and blue recording indicator, with a message about a call from Leonardo Hotel.

Idén bakom GibberLink är enkel: AI behöver inte prata som människor. Under hackathonet utforskade Starkov och Pidkuiko begränsningarna med traditionell AI-till-AI-kommunikation och insåg att de kunde förenkla processen genom att låta AI prata på ett sätt som är optimerat för maskiner.

Konceptet föddes under hackathonet när Starkov och Pidkuiko experimenterade med ElevenLabs Conversational AI, som låter dig koppla ihop valfri LLM och skapa en agent.

Starkov skrev på LinkedIn: "Vi ville visa att i en värld där AI-agenter kan ringa och ta emot samtal (alltså idag), så kommer de ibland prata med varandra – och att generera mänskligt tal för det är slöseri med beräkningskraft, pengar, tid och miljö. Istället borde de byta till ett effektivare protokoll så fort de känner igen varandra som AI."

Genom att kombinera ElevenLabs Conversational AI-teknik med ggwave, ett open source-bibliotek för data över ljud, skapade de ett system där AI-assistenter kan upptäcka när de pratar med en annan AI och direkt byta till ett effektivare kommunikationsläge – där strukturerad data skickas via ljudvågor istället för ord.

De använde ggwave eftersom det var "den smidigaste och mest stabila lösningen vi kunde hitta under hackathonet", men det finns andra sätt att uppnå liknande resultat. Starkov skrev: "Uppringningsmodem använde liknande algoritmer för att skicka information via ljud redan på 80-talet, och flera protokoll har funnits sedan dess."

Koden för mekanismen granskades av ingenjörer på ElevenLabs och under demon fick en Conversational AI-agent i uppgift att boka ett hotellrum till ett bröllop, medan den andra skulle hantera bokningen (som hotellbokningssystem). De fick också instruktioner om att byta till ljudprotokoll om de trodde att den andra också var en AI-agent, men de visste inte om motparten var en agent.

I demovideon finns ett ögonblick när AI:n som spelar kund avslöjar att den är en agent. Boknings-AI:n svarar och frågar om de ska byta till GibberLink. Det låter som två uppringningsmodem som tävlar med R2D2 om årets röst. Du ser höjdpunkterna från denna digitala konversation i text på skärmen på varje enhet i demon, till exempel frågor om antal gäster och datum.

Så funkar det

  • En AI börjar prata som vanligt – precis som en röstassistent som pratar med en människa.
  • Kännedomen slår till – om AI:n inser att den pratar med en annan AI byter båda protokoll.
  • Språket ändras – istället för talade ord skickar AI-agenterna strukturerad data via modulerade ljudvågor, tack vare ggwaves frekvensmodulering.

Mer specifikt börjar två ElevenLabs Conversational AI-agenter prata på mänskligt språk. Båda använder en call-funktion för att aktivera GibberLink-läget om rätt villkor uppfylls. Om verktyget aktiveras avslutas ElevenLabs-samtalet och ggwaves "data över ljud"-protokoll tar över, men med samma LLM-tråd.

Starkov säger att det var "magin med verktygen som ElevenLabs erbjuder" som gjorde det möjligt, eftersom vårt Conversational AI-system "låter dig be AI att köra egen kod under vissa omständigheter." Resultatet? Snabbare, felfri kommunikation med högre effektivitet.

Hur GibberLink tog internet med storm

landing page

Lägg till röst till dina agenter på webben, mobilen eller telefoni på några minuter med låg latens, full konfigurerbarhet och sömlös skalbarhet

GibberLink var inte bara ett smart hackathon-projekt – det blev snabbt ett av de mest omtalade AI-ämnena just nu. Och detta hände samma vecka som xAI lanserade Grok 3 och Anthropic släppte sin senaste version av Claude Sonnet.

När Georgi Gerganov, skaparen av ggwave, delade det på X, fortsatte AI- och teknikvärlden att sprida videon där de två modellerna växlar mellan mänskligt tal och ljud. Stora profiler och teknikmedier, bland annat Forbes, hakade på historien.

Luke Harries från ElevenLabs sammanfattade det bäst i sitt inlägg på X: "Tänk om en AI-agent ringer ett samtal och inser att den andra också är en AI-agent? På ElevenLabs hackathon i London presenterade Boris Starkov och Anton Pidkuiko ett eget protokoll som AI-agenter kan byta till för felfri kommunikation som är 80 % effektivare. Det är helt otroligt."

Varför det här är viktigt

GibberLink visar hur AI kan kommunicera i framtiden, särskilt när både inkommande och utgående samtal kan hanteras av virtuella assistenter och agenter.

Tänk dig AI-drivna kundtjänstbotar, smarta assistenter eller till och med autonoma system som samarbetar direkt i sitt eget läge, och sedan bara skickar en enkel textsammanfattning till den ansvariga människan.

GibberLink är open source och finns för utvecklare att utforska på GitHub. ElevenLabs Conversational AI-agenter finns tillgängliga och är enkla att anpassa efter behov, inklusive egna instruktioner.

Utforska artiklar av ElevenLabs-teamet

ElevenLabs

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in