Pular para o conteúdo

Comparando o Conversational AI da ElevenLabs e a Realtime API da OpenAI

Comparação entre dois lançamentos recentes para ajudar você a escolher o melhor produto para o seu caso de uso

Atualizado em 18 de outubro de 2024

No último mês, tivemos dois grandes lançamentos no mundo do Conversational AI: nossa plataforma de orquestração de Conversational AI e a Realtime API da OpenAIAPI. Preparamos este post para ajudar você a entender as diferenças entre as duas soluções e descobrir qual é a melhor para o seu caso de uso.

Visão geral

Ambos os produtos foram criados para ajudar você a criar agentes de voz conversacionais em tempo real,agentes de voz conversacionais. O Conversational AI da ElevenLabs torna isso possível por meio de uma plataforma de orquestração que cria uma transcrição da fala usando Speech to Text, envia essa transcrição para um LLM de sua escolha junto com uma base de conhecimento personalizada e, em seguida, transforma a resposta do LLM em voz usando o Text to Speech. É uma solução completa, com monitoramento e análises das chamadas anteriores, e em breve terá um ambiente de testes e integração com telefonia.

OpenAI's Realtime API is built on a different architecture whereby the model takes audio (speech) as input and provides audio (speech) directly as the output. There is no step by which audio is converted into a written transcript and passed to an LLM, which likely provides latency gains. It’s only available via API and is not an end to end platform. 
FeatureElevenLabs Conv AIOpenAI Realtime
Total Number of Voices3k+6
LLMs SupportedBring your own server or choose from any leading providerOpenAI models only
Call tracking and analyticsYes, built-in dashboardNo, must build using API
Latency1-3 seconds depending on network latency and size of knowledge baseLikely faster due to no transcription step
Price8.8 cents per minute on business, with discounts for high volume (+LLM cost) ~15 cents per minute (6 cents per minute input, 24 cents per minute output)
Voice CloningYes, bring your own voice with a PVCNo voice cloning
API AccessYes, all plansYes, all plans

Comparativo

Entendendo emoção e pronúncia

Quando nosso Conversational AI converte fala em texto, algumas informações se perdem, como emoção, tom e pronúncia. Como a Realtime API da OpenAI faz a conversão direta de fala para fala, nenhum contexto é perdido. Isso a torna mais adequada para casos como correção de pronúncia no aprendizado de idiomas ou identificação e resposta a emoções em sessões de terapia.

Flexibilidade

Ao usar a Realtime API, você utiliza toda a infraestrutura da OpenAI para a experiência conversacional. Não é possível integrar um LLM de outra empresa ou usar um próprio, já que a Realtime API só aceita áudio como entrada e retorna áudio como saída.

Com nossa plataforma de Conversational AI, você pode trocar o LLM que alimenta seu modelo a qualquer momento (inclusive usando modelos da OpenAI). À medida que Anthropic, OpenAI, Google, NVIDIA e outros avançam na busca pelo LLM mais eficiente, você pode atualizar sempre que quiser para usar a tecnologia mais avançada.

E para empresas que desenvolveram seu próprio LLM ajustado internamente, seja por desempenho ou privacidade, é possível integrá-lo à plataforma de Conversational AI da ElevenLabs, mas não à Realtime API da OpenAI.

Latência

Ao avaliar qualquer modelo quanto à latência, há dois fatores importantes a considerar

(1) A latência média é baixa o suficiente para garantir uma experiência fluida para o usuário?

(2) Quanto a latência varia e como fica a experiência do usuário nos percentis P90 e P99?

Um possível benefício da Realtime API da OpenAI é que, por eliminar a etapa intermediária de converter fala em texto, provavelmente apresenta uma latência geral menor.

Por outro lado, isso impacta a flexibilidade, como já comentamos. Nos nossos testes recentes, o 40-mini era inicialmente o LLM com menor latência para usar com nossa plataforma de Conversational AI. Nesta semana, a latência dele mais que dobrou, levando nossos usuários a migrarem para o Gemini Flash 1.5. Com a Realtime API, não é possível trocar para um LLM mais rápido.

Vale lembrar também que a latência total da sua aplicação de Conversational AI depende não só do provedor, mas também do tamanho da base de conhecimento do seu agente e das condições da sua rede.

Opções de voz

A Realtime API da OpenAI atualmente oferece 6 opções de voz. Nossa Voice Library tem mais de 3.000 vozes. Você também pode usar o Voice Cloning Profissional para criar uma voz personalizada na nossa plataforma. Ou seja, a Realtime API não permite escolher uma voz única para sua marca ou conteúdo.

Preço

Na Realtime API, o áudio de entrada custa $100 por 1 milhão de tokens e o de saída custa $200 por 1 milhão de tokens. Isso equivale a cerca de $0,06 por minuto de áudio de entrada e $0,24 por minuto de áudio de saída.

A ElevenLabs Conversational AI oferece 15 minutos gratuitos para começar. O plano Business inclui 13.750 minutos de Conversational AI ($0,08 por minuto), com minutos extras a $0,08 e descontos progressivos para grandes volumes.

Recursos adicionais da plataforma

Ao final de cada chamada, a Realtime API envia eventos em formato JSON com trechos de texto e áudio, incluindo a transcrição, gravações da chamada e qualquer chamada funcional realizada. Cabe a você ler, processar, gerar relatórios e exibir essas informações de forma útil para sua equipe.

Nossa plataforma já traz recursos integrados para avaliar o sucesso da chamada, extrair dados estruturados e exibir tudo isso junto com a transcrição, resumo e gravação no nosso painel para sua equipe analisar.

Explore artigos da equipe ElevenLabs

ElevenLabs

Crie com o áudio IA da mais alta qualidade