Passer au contenu

Présentation de Eleven v3 (alpha)

Le modèle Text to Speech le plus expressif

v3

Nous sommes ravis de vous présenter Eleven v3 (alpha) — le modèle Text to Speech le plus expressif.

Cette version de recherche offre un contrôle et un réalisme inédits dans la génération vocale grâce à :

  • Plus de 70 langues
  • Dialogue multi-intervenants
  • Balises audio comme [excited], [whispers] et [sighs]

Eleven v3 (alpha) demande plus de prompt engineering que les modèles précédents — mais le résultat est bluffant.

Si vous travaillez sur des vidéos, des livres audio ou des outils médias, vous accédez à un nouveau niveau d'expressivité. Pour les usages en temps réel ou conversationnels, nous vous conseillons de rester sur v2.5 Turbo ou Flash pour l’instant. Une version temps réel de v3 est en cours de développement.

Eleven v3 est disponible dès aujourd’hui sur notre site et via l’API.

Pourquoi nous avons créé v3

Depuis le lancement de Multilingual v2, la voix IA a été adoptée dans le cinéma professionnel, le développement de jeux, l’éducation et l’accessibilité. Mais la limite n’était pas la qualité sonore — c’était l’expressivité. Des émotions plus marquées, des interruptions naturelles et des échanges crédibles étaient difficiles à obtenir.

Eleven v3 comble ce manque. Ce modèle a été conçu pour générer des voix qui soupirent, chuchotent, rient et réagissent — pour un rendu vivant et authentique.

Quoi de neuf dans Eleven v3 (alpha)

Feature What it unlocks
Audio tags Inline control of tone, emotion, and non-verbal reactions
Dialogue mode Multi-speaker conversations with natural pacing and interruptions
70+ languages Full coverage of high-demand global languages
Deeper text understanding Better stress, cadence, and expressivity from text input

Hear v3 for yourself

Background
Background

Utiliser les balises audio

Les balises audio s’intègrent directement dans votre script et s’écrivent entre crochets en minuscules. Retrouvez plus d’informations sur les balises audio dans notre guide de prompting pour v3 dans la documentation.

Les Professional Voice Clones (PVC) ne sont pas encore totalement optimisés pour Eleven v3, ce qui peut entraîner une qualité de clonage inférieure par rapport aux modèles précédents. Pendant cette phase de prévisualisation, il est préférable d’utiliser un Instant Voice Clone (IVC) ou une voix conçue pour profiter des fonctionnalités de v3. L’optimisation des PVC pour v3 arrive bientôt.

Par exemple, vous pouvez écrire : « [whispers] Quelque chose approche… [sighs] Je le sens. » Pour plus de contrôle expressif, combinez plusieurs balises :

1[happily][shouts] We did it! [laughs].

Créer un dialogue multi-intervenants

Eleven v3 est disponible sur notre endpoint Text to Speech actuel. Nous introduisons aussi un nouveau endpoint Text to Dialogue API. Fournissez un tableau structuré d’objets JSON — chacun représentant une prise de parole — et le modèle génère un fichier audio cohérent et superposé :

1[
2 {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."},
3 {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."},
4 {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"}
5]
6

L’endpoint gère automatiquement les transitions de locuteur, les changements d’émotion et les interruptions.

En savoir plus ici.

v3 is our most expressive model

Background
Background

Tarifs et disponibilité

Plan Launch promo At the end of June
UI (self-serve) 80% off (~5× cheaper) Same as Multilingual V2
UI (enterprise) 80% off business plan pricing Business plan pricing

Pour activer v3 :

  • Utilisez le sélecteur de modèle et choisissez Eleven v3 (alpha)

L’accès API et le support dans Studio arrivent bientôt. Pour un accès anticipé, contactez le service commercial.

Quand ne pas utiliser v3

Eleven v3 (alpha) demande plus de prompt engineering que nos modèles précédents. Quand ça fonctionne, le rendu est bluffant, mais la fiabilité et la latence plus élevée ne conviennent pas aux usages en temps réel ou conversationnels. Pour ces cas, nous recommandons Eleven v2.5 Turbo/Flash.

Pour plus d’informations, consultez la documentation complète de v3 et la FAQ.

Try it today

Background
Background
  1. Connectez-vous à l’interface ElevenLabs
  2. Sélectionnez v3 (alpha) dans la liste des modèles
  3. Collez votre script — utilisez des balises ou un dialogue 
  4. Générez l’audio

Nous avons hâte de voir comment vous allez donner vie à v3 dans de nouveaux usages — de la narration immersive à la production cinématographique.

ElevenLabs

Créez avec l'audio AI de la plus haute qualité.

Se lancer gratuitement

Vous avez déjà un compte ? Se connecter