Direkt zum Inhalt

Vorstellung von Eleven v3 (Alpha)

Das ausdrucksstärkste Text-zu-Sprache-Modell

v3

Wir stellen Eleven v3 (Alpha) vor – das ausdrucksstärkste Text-zu-Sprache-Modell.

Diese Forschungs-Vorschau ermöglicht bisher unerreichte Kontrolle und Realismus bei der Spracherzeugung mit:

  • über 70 Sprachen
  • Mehrsprecher-Dialog
  • Audiotags wie [excited], [whispers] und [sighs]

Eleven v3 (Alpha) erfordert mehr Prompt Engineering als frühere Modelle – aber die Ergebnisse sind beeindruckend.

Wenn Sie an Videos, Hörbüchern oder Medientools arbeiten, eröffnet dies neue Ausdrucksmöglichkeiten. Für Echtzeit- und Gesprächsanwendungen empfehlen wir weiterhin v2.5 Turbo oder Flash. Eine Echtzeit-Version von v3 ist in Entwicklung.

Eleven v3 ist ab sofort auf unserer Website und in der API.

Warum wir v3 entwickelt haben

Seit der Einführung von Multilingual v2 wird Voice-KI in professionellen Filmproduktionen, Spieleentwicklung, Bildung und Barrierefreiheit eingesetzt. Die größte Einschränkung war jedoch nicht die Klangqualität, sondern die Ausdrucksstärke. Stärkere Emotionen, Gesprächsunterbrechungen und glaubwürdige Dialoge waren schwer umzusetzen.

Eleven v3 schließt diese Lücke. Es wurde von Grund auf entwickelt, um Stimmen zu erzeugen, die seufzen, flüstern, lachen und reagieren – für Sprache, die wirklich lebendig wirkt.

Was ist neu in Eleven v3 (Alpha)

Feature What it unlocks
Audio tags Inline control of tone, emotion, and non-verbal reactions
Dialogue mode Multi-speaker conversations with natural pacing and interruptions
70+ languages Full coverage of high-demand global languages
Deeper text understanding Better stress, cadence, and expressivity from text input

Hear v3 for yourself

Background
Background

Audiotags verwenden

Audiotags werden direkt im Skript mit kleinen eckigen Klammern geschrieben. Mehr zu Audiotags finden Sie in unserem Prompting-Guide für v3 in der Dokumentation.

Professionelle Voice-Klone (PVCs) sind derzeit noch nicht vollständig für Eleven v3 optimiert, was zu geringerer Klonqualität im Vergleich zu früheren Modellen führen kann. Während dieser Forschungsphase empfiehlt es sich, für v3-Funktionen einen Instant Voice Clone (IVC) oder eine Design-Stimme zu nutzen. Die Optimierung von PVCs für v3 folgt in Kürze.

Zum Beispiel könnten Sie eingeben: „[whispers] Etwas kommt… [sighs] Ich spüre es.“ Für noch mehr Kontrolle lassen sich mehrere Tags kombinieren:

1[happily][shouts] We did it! [laughs].

Mehrsprecher-Dialoge erstellen

Eleven v3 wird im bestehenden Text-zu-Sprache-Endpunkt unterstützt. Zusätzlich gibt es einen neuen Text-zu-Dialog-API-Endpunkt. Geben Sie ein strukturiertes Array von JSON-Objekten an – jedes steht für einen Sprecherwechsel – und das Modell erzeugt eine zusammenhängende, überlappende Audiodatei:

1[
2 {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."},
3 {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."},
4 {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"}
5]
6

Der Endpunkt steuert automatisch Sprecherwechsel, emotionale Übergänge und Unterbrechungen.

Mehr erfahren hier.

v3 is our most expressive model

Background
Background

Preise und Verfügbarkeit

Plan Launch promo At the end of June
UI (self-serve) 80% off (~5× cheaper) Same as Multilingual V2
UI (enterprise) 80% off business plan pricing Business plan pricing

So aktivieren Sie v3:

  • Nutzen Sie den Modell-Auswahl und wählen Sie Eleven v3 (Alpha)

API-Zugang und Unterstützung im Studio folgen in Kürze. Für frühen Zugang bitte Vertrieb kontaktieren.

Wann Sie v3 nicht verwenden sollten

Eleven v3 (Alpha) erfordert mehr Prompt Engineering als unsere bisherigen Modelle. Die Ergebnisse sind beeindruckend, aber Zuverlässigkeit und höhere Latenz machen es für Echtzeit- und Gesprächsanwendungen ungeeignet. Dafür empfehlen wir Eleven v2.5 Turbo/Flash.

Mehr dazu in der vollständigen v3-Dokumentation und den FAQ.

Try it today

Background
Background
  1. Melden Sie sich an bei ElevenLabs UI
  2. Wählen Sie v3 (Alpha) im Modell-Dropdown
  3. Fügen Sie Ihr Skript ein – nutzen Sie Tags oder Dialoge
  4. Audio generieren

Wir sind gespannt, wie Sie v3 für neue Anwendungsfälle einsetzen – von immersivem Storytelling bis zu Produktionspipelines im Filmbereich.

ElevenLabs

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden