Salta al contenido

Comparativa entre Conversational AI de ElevenLabs y la API Realtime de OpenAI

Comparamos dos lanzamientos recientes para ayudarte a encontrar la mejor opción según tu caso de uso

Actualizado a 18 de octubre de 2024

En el último mes ha habido dos lanzamientos importantes en el mundo de Conversational AI: nuestra plataforma de orquestación Conversational AI y la Realtime API de OpenAIAPI. Hemos preparado este artículo para que puedas distinguir entre ambas opciones y decidir cuál se adapta mejor a lo que necesitas.

Resumen

Ambos productos están pensados para ayudarte a crear agentes de voz conversacionales en tiempo real,agentes de voz conversacionales. Conversational AI de ElevenLabs lo hace posible a través de una plataforma de orquestación que crea una transcripción a partir del habla usando Speech to Text, envía esa transcripción a un LLM que elijas junto con una base de conocimiento personalizada, y luego convierte la respuesta del LLM en voz usando Texto a Voz. Es una solución integral que incluye monitorización y analítica de llamadas anteriores, y pronto ofrecerá un entorno de pruebas y la integración con llamadas telefónicas.

OpenAI's Realtime API is built on a different architecture whereby the model takes audio (speech) as input and provides audio (speech) directly as the output. There is no step by which audio is converted into a written transcript and passed to an LLM, which likely provides latency gains. It’s only available via API and is not an end to end platform. 
FeatureElevenLabs Conv AIOpenAI Realtime
Total Number of Voices3k+6
LLMs SupportedBring your own server or choose from any leading providerOpenAI models only
Call tracking and analyticsYes, built-in dashboardNo, must build using API
Latency1-3 seconds depending on network latency and size of knowledge baseLikely faster due to no transcription step
Price8.8 cents per minute on business, with discounts for high volume (+LLM cost) ~15 cents per minute (6 cents per minute input, 24 cents per minute output)
Voice CloningYes, bring your own voice with a PVCNo voice cloning
API AccessYes, all plansYes, all plans

Comparativa

Reconocimiento de emoción y pronunciación

Cuando nuestra Conversational AI convierte voz en texto, se pierde parte de la información, como la emoción, el tono y la pronunciación. Como la Realtime API de OpenAI pasa directamente de voz a voz, no se pierde ese contexto. Por eso, es más útil en casos como corregir la pronunciación al aprender un idioma o identificar y responder a emociones en terapia.

Flexibilidad

Al usar la Realtime API, dependes de la infraestructura de OpenAI para toda la experiencia conversacional. No es posible integrar el LLM de otra empresa ni usar uno propio, ya que la Realtime API solo acepta audio como entrada y devuelve audio como salida.

Con nuestra plataforma Conversational AI puedes cambiar el LLM que impulsa tu modelo en cualquier momento (incluyendo los modelos de OpenAI). A medida que Anthropic, OpenAI, Google, NVIDIA y otros siguen compitiendo por tener el LLM más avanzado, puedes actualizarlo cuando quieras para usar siempre la tecnología más puntera.

Y para empresas que han desarrollado su propio LLM ajustado internamente, ya sea por rendimiento o privacidad, es posible integrarlo con la plataforma Conversational AI de ElevenLabs, pero no con la Realtime API de OpenAI.

Latencia

Al evaluar cualquier modelo por su latencia, hay dos factores clave a tener en cuenta

(1) ¿La latencia media es lo suficientemente baja como para ofrecer una experiencia fluida?

(2) ¿Cuánto varía la latencia y cómo es la experiencia para el usuario en los percentiles P90 y P99?

Una posible ventaja de la Realtime API de OpenAI es que, al eliminar el paso intermedio de convertir voz en texto, probablemente tenga una latencia total más baja.

Sin embargo, esto también afecta a la flexibilidad de la que hablábamos antes. En nuestras pruebas de las últimas semanas, 40-mini era inicialmente el LLM con menor latencia para usar con nuestra plataforma Conversational AI. Esta semana, su latencia se duplicó y nuestros usuarios cambiaron a Gemini Flash 1.5. Con la Realtime API no puedes cambiar a un LLM más rápido.

Ten en cuenta también que la latencia total de tu aplicación Conversational AI dependerá no solo del proveedor, sino también del tamaño de la base de conocimiento del agente y de las condiciones de tu red.

Opciones de voz

La Realtime API de OpenAI ofrece actualmente 6 voces. Nuestra Voice Library tiene más de 3.000 voces. Además, puedes usar Voice Cloning profesional para crear tu propia voz personalizada en nuestra plataforma. Esto significa que la Realtime API no te permite elegir una voz única para tu marca o contenido.

Precio

En la Realtime API, la entrada de audio cuesta 100 $ por cada millón de tokens y la salida 200 $ por cada millón de tokens. Esto equivale aproximadamente a 0,06 $ por minuto de audio de entrada y 0,24 $ por minuto de audio de salida.

ElevenLabs Conversational AI ofrece 15 minutos gratis para empezar. El plan Business incluye 13.750 minutos de Conversational AI (0,08 $ por minuto), con minutos extra a 0,08 $ y descuentos importantes para grandes volúmenes.

Funciones adicionales de la plataforma

Al terminar cada llamada, la Realtime API envía eventos en formato JSON con fragmentos de texto y audio, incluyendo la transcripción, grabaciones de la llamada y cualquier función utilizada. Depende de ti leer, procesar, analizar y mostrar esa información de forma útil para tu equipo.

Nuestra plataforma incluye herramientas para evaluar el éxito de una llamada, extraer datos estructurados y mostrar todo junto a la transcripción, el resumen y la grabación en nuestro panel para que tu equipo lo revise.

Descubre artículos del equipo de ElevenLabs

ElevenLabs

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión