
Découvrez Eleven Turbo v2.5
Texte en parole de haute qualité et faible latence en 32 langues
Comparaison de deux lancements récents pour vous aider à choisir le produit le plus adapté à votre usage
Mise à jour au 18 octobre 2024
Deux lancements majeurs ont eu lieu dans le domaine de la Conversational AI le mois dernier : notre plateforme d’orchestration Conversational AI et la Realtime API d’OpenAIAPI. Nous avons rédigé cet article pour vous aider à faire la différence entre les deux et à choisir celui qui correspond le mieux à vos besoins.
Ces deux produits sont conçus pour vous aider à créer des agents vocaux conversationnels en temps réel,agents vocaux conversationnels. ElevenLabs Conversational AI permet cela grâce à une plateforme d’orchestration qui crée une transcription à partir de la parole avec Speech to Text, envoie cette transcription à un LLM de votre choix avec une base de connaissances personnalisée, puis vocalise la réponse du LLM avecText to Speech. C’est une solution complète qui inclut le suivi et l’analyse des appels passés et proposera bientôt un cadre de test et des intégrations téléphoniques.
| Feature | ElevenLabs Conv AI | OpenAI Realtime |
|---|---|---|
| Total Number of Voices | 3k+ | 6 |
| LLMs Supported | Bring your own server or choose from any leading provider | OpenAI models only |
| Call tracking and analytics | Yes, built-in dashboard | No, must build using API |
| Latency | 1-3 seconds depending on network latency and size of knowledge base | Likely faster due to no transcription step |
| Price | 8.8 cents per minute on business, with discounts for high volume (+LLM cost) | ~15 cents per minute (6 cents per minute input, 24 cents per minute output) |
| Voice Cloning | Yes, bring your own voice with a PVC | No voice cloning |
| API Access | Yes, all plans | Yes, all plans |
Quand notre Conversational AI convertit la parole en texte, certaines informations sont perdues, comme l’émotion, le ton et la prononciation. Comme la Realtime API d’OpenAI passe directement de la parole à la parole, aucun contexte n’est perdu. Cela la rend plus adaptée à certains usages, comme corriger la prononciation lors de l’apprentissage d’une langue ou détecter et répondre à l’émotion en thérapie.
Avec la Realtime API, vous utilisez l’infrastructure d’OpenAI pour toute l’expérience conversationnelle. Il n’est pas possible d’intégrer le LLM d’une autre entreprise, ni d’utiliser le vôtre, car la Realtime API prend uniquement l’audio en entrée et renvoie de l’audio en sortie.
Avec notre plateforme Conversational AI, vous pouvez changer le LLM qui alimente votre modèle à tout moment (y compris les modèles d’OpenAI). Comme Anthropic, OpenAI, Google, NVIDIA et d’autres continuent de se concurrencer pour proposer les LLM les plus performants, vous pouvez mettre à jour à tout moment pour toujours bénéficier de la technologie la plus avancée.
Et pour les entreprises qui ont développé leur propre LLM personnalisé en interne, pour des raisons de performance ou de confidentialité, il est possible de l’intégrer à la plateforme Conversational AI d’ElevenLabs, mais pas à la Realtime API d’OpenAI.
Pour évaluer la latence d’un modèle, deux facteurs sont importants à prendre en compte
(1) La latence moyenne est-elle suffisamment basse pour garantir une expérience fluide ?
(2) Dans quelle mesure la latence varie-t-elle et à quoi ressemble l’expérience utilisateur pour la latence P90 et P99 ?
Un avantage possible de la Realtime API d’OpenAI est qu’en supprimant l’étape intermédiaire de conversion de la parole en texte, la latence globale est probablement plus faible.
Un inconvénient potentiel concerne la flexibilité évoquée plus haut. Lors de nos tests ces dernières semaines, 40-mini était initialement le LLM avec la latence la plus faible à associer à notre plateforme Conversational AI. Cette semaine, sa latence a plus que doublé, ce qui a poussé nos utilisateurs à passer à Gemini Flash 1.5. Avec la Realtime API, il n’est pas possible de changer pour un LLM plus rapide.
Notez aussi que la latence globale de votre application Conversational AI dépendra non seulement de votre fournisseur, mais aussi de la taille de labase de connaissances de l’agentet de vos conditions réseau.
La Realtime API d’OpenAI propose actuellement 6 voix. Notre bibliothèque de voix en compte plus de 3 000. Vous pouvez aussi utiliser le Voice Cloning professionnel pour créer votre propre voix personnalisée sur notre plateforme. Cela signifie que la Realtime API ne permet pas de choisir une voix unique pour votre marque ou vos contenus.
Avec la Realtime API, l’audio en entrée est facturé 100 $ par million de tokens et la sortie 200 $ par million de tokens. Cela correspond à environ 0,06 $ par minute d’audio en entrée et 0,24 $ par minute d’audio en sortie.
ElevenLabsConversational AIoffre 15 minutes pour commencer avec le forfait gratuit. Le forfait Business propose 13 750 minutes de Conversational AI (0,08 $ la minute), les minutes supplémentaires étant facturées 0,08 $, avec des tarifs dégressifs pour de plus gros volumes.
À la fin de chaque appel, la Realtime API envoie des événements au format JSON contenant des extraits de texte et d’audio, y compris la transcription, les enregistrements de l’appel et les appels fonctionnels effectués. C’est à vous de lire, traiter, analyser et afficher ces informations de façon utile pour votre équipe.
Notre plateforme intègre des outils pour évaluer le succès d’un appel, extraire des données structurées et afficher tout cela avec la transcription, le résumé et l’enregistrement dans notre tableau de bord pour que votre équipe puisse les consulter.

Texte en parole de haute qualité et faible latence en 32 langues

Reducing time to ticket resolution by 8x with multilingual conversational agents.