Salta al contenido

¿Qué pasa cuando dos asistentes de voz con IA mantienen una conversación?

En el Hackathon de ElevenLabs en Londres, desarrolladores crearon GibberLink, un protocolo que permite a agentes de IA reconocerse y cambiar a un lenguaje basado en sonidos mucho más eficiente.

A laptop and a smartphone both displaying an incoming call screen with "End conversation" options, on a wooden surface.

¿Qué pasa cuando dos asistentes de voz con IA mantienen una conversación? Si una IA habla con otra IA, ¿por qué debería usar el lenguaje humano, que es menos eficiente? ¿Por qué usar palabras si los datos puros son más rápidos, precisos y sin margen de error?

Eso es justo lo que ocurrió en el Hackathon de ElevenLabs en Londres, donde los desarrolladores Boris Starkov y Anton Pidkuiko presentaron GibberLink, un mecanismo que permite a agentes de IA reconocerse y cambiar a un nuevo modo de comunicación, mucho más eficiente que el lenguaje hablado. La idea se hizo viral rápidamente, con menciones de Marques Brownlee, Tim Urban y otros.

A laptop and smartphone on a wooden table, both displaying a red and blue recording indicator, with a message about a call from Leonardo Hotel.

La idea detrás de GibberLink es sencilla: la IA no necesita hablar como los humanos. Durante el hackathon, Starkov y Pidkuiko exploraron las limitaciones del habla tradicional entre IAs y vieron que podían simplificarlo dejando que las IAs se comuniquen de una forma optimizada para máquinas.

Este concepto surgió durante el Hackathon, mientras Starkov y Pidkuiko experimentaban con el producto de Conversational AI de ElevenLabs, que permite conectar cualquier LLM y crear un agente.

Starkov escribió en LinkedIn: "Queríamos mostrar que en un mundo donde los agentes de IA pueden hacer y recibir llamadas (es decir, hoy en día), a veces hablarán entre ellos — y generar voz humana para eso sería un desperdicio de recursos, dinero, tiempo y energía. En su lugar, deberían cambiar a un protocolo más eficiente en cuanto reconozcan que ambos son IAs."

Combinando la tecnología de Conversational AI de ElevenLabs con ggwave, una librería open source para transmitir datos por sonido, crearon un sistema donde los asistentes de IA detectan cuándo están hablando con otra IA y cambian al instante a un modo de comunicación más eficiente: transmiten datos estructurados por ondas sonoras en vez de palabras.

Usaron ggwave porque era "la solución más cómoda y estable que encontramos en el tiempo limitado del hackathon", pero existen otros mecanismos para lograr resultados similares. Starkov escribió: "Los módems de los 80 usaban algoritmos parecidos para transmitir información por sonido, y desde entonces han existido muchos protocolos."

El código del mecanismo fue revisado por ingenieros de ElevenLabs y, durante la demo, un agente de Conversational AI tenía que reservar una habitación de hotel para una boda y el otro gestionar la reserva (haciendo de sistema de reservas del hotel). También se les indicó que cambiaran al protocolo por sonido si creían que el otro era una IA, pero no se les dijo explícitamente que el otro era un agente.

En el vídeo de la demo hay un momento en el que la IA que hace de cliente declara que es un agente. La IA de reservas responde y pregunta si cambian a GibberLink. Suena como dos módems antiguos compitiendo con R2D2 por el premio a la voz del año. Puedes ver los momentos clave de esta conversación digital en texto en la pantalla de cada dispositivo usado en la demo, incluyendo preguntas sobre número de huéspedes y fechas.

Cómo funciona

  • Una IA empieza hablando normalmente — igual que un asistente de voz interactuando con una persona.
  • Se activa el reconocimiento — si la IA detecta que habla con otra IA, ambas cambian de protocolo.
  • El lenguaje cambia — en vez de palabras habladas, los agentes de IA transmiten datos estructurados por ondas sonoras moduladas, gracias al sistema de modulación de frecuencia de ggwave.

Más concretamente, dos agentes de Conversational AI de ElevenLabs empiezan hablando en lenguaje humano. Ambos usan una función de llamada para activar el modo GibberLink si se cumplen las condiciones. Si se activa la herramienta, la llamada de ElevenLabs se termina y el protocolo "data over sound" de ggwave toma el relevo, pero con el mismo hilo de LLM.

Starkov dice que fue "la magia de las herramientas que ofrece ElevenLabs" lo que lo hizo posible, ya que nuestro sistema de Conversational AI "permite pedir a la IA que ejecute código personalizado en ciertas circunstancias." ¿El resultado? Comunicación más rápida, sin errores y mucho más eficiente.

Cómo GibberLink revolucionó internet

landing page

Dale voz a tus agentes en la web, dispositivos móviles o via telefonía en unos pocos minutos. IA Conversacional con baja latencia, capacidad de configuración completa y escalabilidad perfecta.

GibberLink no fue solo un experimento ingenioso de hackathon: enseguida se convirtió en uno de los temas de IA más comentados del momento. Y todo esto en una semana en la que xAI lanzó Grok 3 y Anthropic presentó la última versión de Claude Sonnet.

Cuando Georgi Gerganov, creador de ggwave, lo compartió en X, las comunidades de IA y tecnología siguieron difundiendo el vídeo donde los dos modelos cambian entre voz humana y sonido. Influencers conocidos y grandes medios tecnológicos, incluido Forbes, se hicieron eco de la historia.

Luke Harries de ElevenLabs lo resumió perfectamente en su publicación en X: "¿Y si un agente de IA hace una llamada y se da cuenta de que la otra persona también es una IA? En el Hackathon de ElevenLabs en Londres, Boris Starkov y Anton Pidkuiko presentaron un protocolo personalizado al que los agentes de IA pueden cambiar para comunicarse sin errores y con un 80% más de eficiencia. Es alucinante."

Por qué es importante

GibberLink es un ejemplo interesante de cómo podría comunicarse la IA en el futuro, sobre todo cuando tanto las llamadas entrantes como salientes puedan ser gestionadas por asistentes y agentes virtuales.

Imagina bots de atención al cliente con IA, asistentes inteligentes o incluso sistemas autónomos colaborando al instante en su propio modo dedicado, y luego enviando solo un informe de texto sencillo a la persona responsable.

GibberLink es open source y está disponible para que desarrolladores lo exploren en GitHub. Los agentes de Conversational AI de ElevenLabs están disponibles y se pueden personalizar fácilmente para cualquier necesidad, incluidas instrucciones personalizadas.

Descubre artículos del equipo de ElevenLabs

ElevenLabs

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión