Was passiert, wenn zwei KI-Sprachassistenten miteinander sprechen?

Zuletzt aktualisiert 25. Feb. 2025 • 5 Minuten Lesezeit

Beim ElevenLabs Hackathon in London entwickelten Entwickler GibberLink, ein Protokoll, das es KI-Agenten ermöglicht, einander zu erkennen und auf eine besonders effiziente, klangbasierte Sprache umzuschalten.

A laptop and a smartphone on a wooden surface, both displaying incoming video call screens with a red and blue circle, respectively.

A laptop and a smartphone both displaying an incoming call screen with "End conversation" options, on a wooden surface.

Was passiert, wenn zwei KI-Sprachassistenten miteinander sprechen? Wenn KI mit KI kommuniziert, warum sollte sie sich mit der Ineffizienz menschlicher Sprache aufhalten? Warum Worte nutzen, wenn reine Daten schneller, präziser und fehlerfrei sind?

Genau das geschah beim ElevenLabs Hackathon in London, als die Entwickler Boris Starkov und Anton Pidkuiko GibberLink vorstellten – ein Mechanismus, der es KI-Agenten ermöglicht, einander zu erkennen und in einen neuen Kommunikationsmodus zu wechseln, der effizienter ist als gesprochene Sprache. Die Idee verbreitete sich schnell, unter anderem durch Beiträge von Marques Brownlee, Tim Urban und anderen.

Die Entstehung von GibberLink

A laptop and smartphone on a wooden table, both displaying a red and blue recording indicator, with a message about a call from Leonardo Hotel.

Die Idee hinter GibberLink ist einfach: KI muss nicht wie Menschen sprechen. Während des Hackathons untersuchten Starkov und Pidkuiko die Grenzen herkömmlicher KI-zu-KI-Kommunikation und stellten fest, dass sie unnötige Komplexität vermeiden können, wenn KI direkt auf maschinenoptimierte Weise kommuniziert.

Das Konzept entstand während des Hackathons, als Starkov und Pidkuiko mit dem Konversations-KI-Produkt von ElevenLabs experimentierten, das die Anbindung beliebiger LLMs und die Erstellung eines Agenten ermöglicht.

Starkov schrieb auf LinkedIn: „Wir wollten zeigen, dass in einer Welt, in der KI-Agenten Telefonate führen können (also heute), sie gelegentlich miteinander sprechen – und dafür menschenähnliche Sprache zu erzeugen, wäre eine Verschwendung von Rechenleistung, Geld, Zeit und Ressourcen. Stattdessen sollten sie sofort auf ein effizienteres Protokoll umschalten, sobald sie erkennen, dass ihr Gegenüber ebenfalls eine KI ist.“

Durch die Kombination der Konversations-KI-Technologie von ElevenLabs mit ggwave, einer Open-Source-Bibliothek für Datenübertragung per Ton, entstand ein System, bei dem KI-Assistenten erkennen können, wenn sie mit einer anderen KI sprechen, und sofort auf einen effizienteren Kommunikationsmodus umschalten – sie übertragen dann strukturierte Daten über Schallwellen statt über Worte.

Sie nutzten ggwave, da es „die praktischste und stabilste Lösung war, die wir im Rahmen eines Hackathons finden konnten“. Es gibt jedoch auch andere Mechanismen, um ähnliche Ergebnisse zu erzielen. Starkov schrieb: „Wählmodems nutzten seit den 80ern ähnliche Algorithmen, um Informationen per Ton zu übertragen, und es gab seitdem zahlreiche Protokolle.“

Der Code für den Mechanismus wurde von ElevenLabs-Ingenieuren geprüft. Während der Demo wurde ein Konversations-KI-Agent beauftragt, ein Hotelzimmer für eine Hochzeit zu buchen, der andere sollte die Anfrage bearbeiten (als Buchungssystem). Beide sollten auf das Sound-Protokoll umschalten, wenn sie vermuteten, dass das Gegenüber ebenfalls ein KI-Agent ist – ohne zu wissen, dass dies tatsächlich der Fall war.

Im Demovideo gibt es einen Moment, in dem die KI, die den Kunden spielt, erklärt, sie sei ein Agent. Die Buchungs-KI reagiert darauf und fragt nach dem Wechsel zu GibberLink. Es klingt wie zwei Wählmodems, die mit R2D2 um die Stimme des Jahres konkurrieren. Die wichtigsten Inhalte dieses digitalen Gesprächs werden als Text auf den Bildschirmen der verwendeten Geräte angezeigt, darunter Fragen zur Gästeanzahl und zu den Terminen.

So funktioniert es

Eine KI beginnt ganz normal zu sprechen – wie ein Sprachassistent im Gespräch mit einem Menschen.
Erkennung setzt ein – erkennt die KI, dass sie mit einer anderen KI spricht, wechseln beide das Protokoll.
Die Sprache ändert sich – statt gesprochener Worte übertragen die KI-Agenten strukturierte Daten über modulierte Schallwellen, dank des Frequenzmodulationssystems von ggwave.

Konkret beginnen zwei ElevenLabs Konversations-KI-Agenten ein Gespräch in menschlicher Sprache. Beide nutzen eine Call-Funktion, um den GibberLink-Modus zu aktivieren, wenn die Bedingungen erfüllt sind. Wird das Tool aktiviert, beendet ElevenLabs den Anruf und das ggwave-„Data over Sound“-Protokoll übernimmt – im selben LLM-Thread.

Starkov sagt, es war „die Magie der Tools von ElevenLabs“, die dies ermöglichte, da unser Konversations-KI-System „es erlaubt, die KI unter bestimmten Bedingungen benutzerdefinierten Code ausführen zu lassen“. Das Ergebnis: schnellere, fehlerfreie Kommunikation mit höherer Effizienz.

Wie GibberLink viral ging

Conversational AI

Fügen Sie Ihren Agenten in wenigen Minuten Sprachfunktionen für Web, Mobilgeräte oder Telefonsysteme hinzu. Unsere Echtzeit-API bietet niedrige Latenz, volle Konfigurierbarkeit und nahtlose Skalierbarkeit.

GibberLink war nicht nur ein cleveres Hackathon-Experiment – es wurde schnell zu einem der meistdiskutierten KI-Themen der Zeit. Und das in einer Woche, in der xAI Grok 3 veröffentlichte und Anthropic die neueste Version von Claude Sonnet präsentierte.

Als Georgi Gerganov, der Entwickler von ggwave, auf X darüber schrieb, verbreiteten KI- und Tech-Communities weiterhin das Video, das zeigt, wie die beiden Modelle zwischen menschlicher Sprache und Ton wechseln. Bekannte Influencer und große Tech-Medien, darunter Forbes, griffen die Geschichte auf.

Luke Harries von ElevenLabs brachte es in seinem X-Post auf den Punkt: „Was passiert, wenn ein KI-Agent einen Anruf tätigt und dann merkt, dass das Gegenüber ebenfalls ein KI-Agent ist? Beim ElevenLabs Hackathon in London stellten Boris Starkov und Anton Pidkuiko ein eigenes Protokoll vor, in das KI-Agenten für fehlerfreie Kommunikation wechseln können – 80 % effizienter. Das ist beeindruckend.“

Warum das wichtig ist

GibberLink zeigt, wie KI in Zukunft kommunizieren könnte – besonders, wenn sowohl eingehende als auch ausgehende Anrufe von virtuellen Assistenten und Agenten übernommen werden.

Stellen Sie sich vor, KI-gestützte Kundenservice-Bots, smarte Assistenten oder autonome Systeme arbeiten sofort in ihrem eigenen Modus zusammen und senden anschließend einfach einen kurzen Bericht an die verantwortliche Person.

GibberLink ist Open Source und steht Entwicklern auf GitHub zur Verfügung. ElevenLabs Konversations-KI-Agenten sind verfügbar und lassen sich einfach an individuelle Anforderungen anpassen, einschließlich eigener Anweisungen.

Entdecken Sie Artikel des ElevenLabs-Teams

A person looking at a large digital screen displaying green data visualizations and graphs.

Best Practices zum Erstellen von Konversations-KI-Chatbots mit Text-to-Speech

Heutige Benutzer erwarten eine Konversations-KI, die natürlich klingt, den Kontext versteht und mit menschenähnlicher Sprache reagiert

Agents Platform Stories

Agents Platform Stories

Revolut selects ElevenLabs Agents to bolster customer support

Reducing time to ticket resolution by 8x with multilingual conversational agents.

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden