
Revolut selects ElevenLabs Agents to bolster customer support
Reducing time to ticket resolution by 8x with multilingual conversational agents.
Le modèle Text to Speech le plus expressif
Nous sommes ravis de vous présenter Eleven v3 (alpha) — le modèle Text to Speech le plus expressif.
Cette version de recherche offre un contrôle et un réalisme inédits dans la génération vocale grâce à :
Eleven v3 (alpha) demande plus de prompt engineering que les modèles précédents — mais le résultat est bluffant.
Si vous travaillez sur des vidéos, des livres audio ou des outils médias, vous accédez à un nouveau niveau d'expressivité. Pour les usages en temps réel ou conversationnels, nous vous conseillons de rester sur v2.5 Turbo ou Flash pour l’instant. Une version temps réel de v3 est en cours de développement.
Eleven v3 est disponible dès aujourd’hui sur notre site et via l’API.
Depuis le lancement de Multilingual v2, la voix IA a été adoptée dans le cinéma professionnel, le développement de jeux, l’éducation et l’accessibilité. Mais la limite n’était pas la qualité sonore — c’était l’expressivité. Des émotions plus marquées, des interruptions naturelles et des échanges crédibles étaient difficiles à obtenir.
Eleven v3 comble ce manque. Ce modèle a été conçu pour générer des voix qui soupirent, chuchotent, rient et réagissent — pour un rendu vivant et authentique.
| Feature | What it unlocks |
|---|---|
| Audio tags | Inline control of tone, emotion, and non-verbal reactions |
| Dialogue mode | Multi-speaker conversations with natural pacing and interruptions |
| 70+ languages | Full coverage of high-demand global languages |
| Deeper text understanding | Better stress, cadence, and expressivity from text input |
Les balises audio s’intègrent directement dans votre script et s’écrivent entre crochets en minuscules. Retrouvez plus d’informations sur les balises audio dans notre guide de prompting pour v3 dans la documentation.
Les Professional Voice Clones (PVC) ne sont pas encore totalement optimisés pour Eleven v3, ce qui peut entraîner une qualité de clonage inférieure par rapport aux modèles précédents. Pendant cette phase de prévisualisation, il est préférable d’utiliser un Instant Voice Clone (IVC) ou une voix conçue pour profiter des fonctionnalités de v3. L’optimisation des PVC pour v3 arrive bientôt.
Par exemple, vous pouvez écrire : « [whispers] Quelque chose approche… [sighs] Je le sens. » Pour plus de contrôle expressif, combinez plusieurs balises :
| 1 | “[happily][shouts] We did it! [laughs].” |
Eleven v3 est disponible sur notre endpoint Text to Speech actuel. Nous introduisons aussi un nouveau endpoint Text to Dialogue API. Fournissez un tableau structuré d’objets JSON — chacun représentant une prise de parole — et le modèle génère un fichier audio cohérent et superposé :
| 1 | [ |
| 2 | {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."}, |
| 3 | {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."}, |
| 4 | {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"} |
| 5 | ] |
| 6 |
L’endpoint gère automatiquement les transitions de locuteur, les changements d’émotion et les interruptions.
En savoir plus ici.
| Plan | Launch promo | At the end of June |
|---|---|---|
| UI (self-serve) | 80% off (~5× cheaper) | Same as Multilingual V2 |
| UI (enterprise) | 80% off business plan pricing | Business plan pricing |
Pour activer v3 :
L’accès API et le support dans Studio arrivent bientôt. Pour un accès anticipé, contactez le service commercial.
Eleven v3 (alpha) demande plus de prompt engineering que nos modèles précédents. Quand ça fonctionne, le rendu est bluffant, mais la fiabilité et la latence plus élevée ne conviennent pas aux usages en temps réel ou conversationnels. Pour ces cas, nous recommandons Eleven v2.5 Turbo/Flash.
Pour plus d’informations, consultez la documentation complète de v3 et la FAQ.
Nous avons hâte de voir comment vous allez donner vie à v3 dans de nouveaux usages — de la narration immersive à la production cinématographique.

Reducing time to ticket resolution by 8x with multilingual conversational agents.
.webp&w=3840&q=95)
Yampa leverages ElevenLabs Flash V2.5 to scale human-like outbound voice agents with ultra-low latency and massive concurrency.