
Apresentando o Eleven Turbo v2.5
Text to Speech de alta qualidade e baixa latência em 32 idiomas
Comparação entre dois lançamentos recentes para ajudar você a escolher o melhor produto para o seu caso de uso
Atualizado em 18 de outubro de 2024
No último mês, tivemos dois grandes lançamentos no mundo do Conversational AI: nossa plataforma de orquestração de Conversational AI e a Realtime API da OpenAIAPI. Preparamos este post para ajudar você a entender as diferenças entre as duas soluções e descobrir qual é a melhor para o seu caso de uso.
Ambos os produtos foram criados para ajudar você a criar agentes de voz conversacionais em tempo real,agentes de voz conversacionais. O Conversational AI da ElevenLabs torna isso possível por meio de uma plataforma de orquestração que cria uma transcrição da fala usando Speech to Text, envia essa transcrição para um LLM de sua escolha junto com uma base de conhecimento personalizada e, em seguida, transforma a resposta do LLM em voz usando o Text to Speech. É uma solução completa, com monitoramento e análises das chamadas anteriores, e em breve terá um ambiente de testes e integração com telefonia.
| Feature | ElevenLabs Conv AI | OpenAI Realtime |
|---|---|---|
| Total Number of Voices | 3k+ | 6 |
| LLMs Supported | Bring your own server or choose from any leading provider | OpenAI models only |
| Call tracking and analytics | Yes, built-in dashboard | No, must build using API |
| Latency | 1-3 seconds depending on network latency and size of knowledge base | Likely faster due to no transcription step |
| Price | 8.8 cents per minute on business, with discounts for high volume (+LLM cost) | ~15 cents per minute (6 cents per minute input, 24 cents per minute output) |
| Voice Cloning | Yes, bring your own voice with a PVC | No voice cloning |
| API Access | Yes, all plans | Yes, all plans |
Quando nosso Conversational AI converte fala em texto, algumas informações se perdem, como emoção, tom e pronúncia. Como a Realtime API da OpenAI faz a conversão direta de fala para fala, nenhum contexto é perdido. Isso a torna mais adequada para casos como correção de pronúncia no aprendizado de idiomas ou identificação e resposta a emoções em sessões de terapia.
Ao usar a Realtime API, você utiliza toda a infraestrutura da OpenAI para a experiência conversacional. Não é possível integrar um LLM de outra empresa ou usar um próprio, já que a Realtime API só aceita áudio como entrada e retorna áudio como saída.
Com nossa plataforma de Conversational AI, você pode trocar o LLM que alimenta seu modelo a qualquer momento (inclusive usando modelos da OpenAI). À medida que Anthropic, OpenAI, Google, NVIDIA e outros avançam na busca pelo LLM mais eficiente, você pode atualizar sempre que quiser para usar a tecnologia mais avançada.
E para empresas que desenvolveram seu próprio LLM ajustado internamente, seja por desempenho ou privacidade, é possível integrá-lo à plataforma de Conversational AI da ElevenLabs, mas não à Realtime API da OpenAI.
Ao avaliar qualquer modelo quanto à latência, há dois fatores importantes a considerar
(1) A latência média é baixa o suficiente para garantir uma experiência fluida para o usuário?
(2) Quanto a latência varia e como fica a experiência do usuário nos percentis P90 e P99?
Um possível benefício da Realtime API da OpenAI é que, por eliminar a etapa intermediária de converter fala em texto, provavelmente apresenta uma latência geral menor.
Por outro lado, isso impacta a flexibilidade, como já comentamos. Nos nossos testes recentes, o 40-mini era inicialmente o LLM com menor latência para usar com nossa plataforma de Conversational AI. Nesta semana, a latência dele mais que dobrou, levando nossos usuários a migrarem para o Gemini Flash 1.5. Com a Realtime API, não é possível trocar para um LLM mais rápido.
Vale lembrar também que a latência total da sua aplicação de Conversational AI depende não só do provedor, mas também do tamanho da base de conhecimento do seu agente e das condições da sua rede.
A Realtime API da OpenAI atualmente oferece 6 opções de voz. Nossa Voice Library tem mais de 3.000 vozes. Você também pode usar o Voice Cloning Profissional para criar uma voz personalizada na nossa plataforma. Ou seja, a Realtime API não permite escolher uma voz única para sua marca ou conteúdo.
Na Realtime API, o áudio de entrada custa $100 por 1 milhão de tokens e o de saída custa $200 por 1 milhão de tokens. Isso equivale a cerca de $0,06 por minuto de áudio de entrada e $0,24 por minuto de áudio de saída.
A ElevenLabs Conversational AI oferece 15 minutos gratuitos para começar. O plano Business inclui 13.750 minutos de Conversational AI ($0,08 por minuto), com minutos extras a $0,08 e descontos progressivos para grandes volumes.
Ao final de cada chamada, a Realtime API envia eventos em formato JSON com trechos de texto e áudio, incluindo a transcrição, gravações da chamada e qualquer chamada funcional realizada. Cabe a você ler, processar, gerar relatórios e exibir essas informações de forma útil para sua equipe.
Nossa plataforma já traz recursos integrados para avaliar o sucesso da chamada, extrair dados estruturados e exibir tudo isso junto com a transcrição, resumo e gravação no nosso painel para sua equipe analisar.

Text to Speech de alta qualidade e baixa latência em 32 idiomas

Reducing time to ticket resolution by 8x with multilingual conversational agents.