Direkt zum Inhalt

Was sind Eleven v3 Audio-Tags – und warum sind sie wichtig

Die Audio-Tags von ElevenLabs steuern Emotion, Tempo und Soundeffekte der KI-Stimme.

Audio tags

Mit der Einführung von Eleven v3 ist Audio-Prompting zu einer wichtigen Fähigkeit geworden. Anstatt nur Text einzugeben oder einzufügen, können Sie jetzt eine neue Funktion nutzen – Audio-Tags – um alles von Emotion bis Vortrag gezielt zu steuern.

Eleven v3 ist eine Alpha-Version Forschungsvorschau des neuen Modells. Es erfordert mehr Prompt Engineering als frühere Modelle – aber die Ergebnisse sind beeindruckend.

ElevenLabs Audio-Tags sind Wörter in eckigen Klammern, die das neue Eleven v3 Modell interpretieren und zur Steuerung der Audioausgabe nutzen kann. Beispiele sind [excited], [whispers], [sighs] bis hin zu [gunshot], [clapping] und [explosion].

Mit Audio-Tags gestalten Sie, wie KI-Stimmen klingen – inklusive nonverbaler Hinweise wie Tonfall, Pausen und Tempo. Ob für Hörbücher, interaktive Charaktere oder dialogbasierte Medien: Diese einfachen Tools auf Skriptebene geben Ihnen präzise Kontrolle über Emotion und Vortrag.

Performance mit Audio-Tags steuern

Sie können Audio-Tags überall im Skript platzieren, um die Ausgabe in Echtzeit zu beeinflussen. Auch Kombinationen innerhalb eines Skripts oder Satzes sind möglich. Die Tags lassen sich in Hauptkategorien einteilen:

Emotionen

Diese Tags helfen, die emotionale Stimmung der Stimme zu setzen – ob ernst, intensiv oder fröhlich. Zum Beispiel mit [sad], [angry], [happily] oder [sorrowful], einzeln oder kombiniert.

Background
Background

Vortragsrichtung

Hier geht es um Ton und Vortrag. Mit diesen Tags passen Sie Lautstärke und Energie an – für Szenen, die Zurückhaltung oder Kraft erfordern. Beispiele: [whispers], [shouts] oder auch [x accent].

Background
Background

Menschliche Reaktionen

Natürliche Sprache enthält Reaktionen. So können Sie Realismus schaffen, indem Sie spontane Momente einbauen – etwa [laughs], [clears throat] oder [sighs].

Background
Background

Basierend auf einem ausdrucksstärkeren Modell

Die neue Architektur von v3 bildet die Grundlage für diese Funktionen. Das Modell versteht Textkontext tiefer und kann emotionale Hinweise, Tonwechsel und Sprecherwechsel natürlicher umsetzen. Zusammen mit Audio-Tags ermöglicht das mehr Ausdrucksstärke als bisher bei Text zu Sprache.

Sie können jetzt auch Dialoge mit mehreren Sprechern erstellen, die spontan wirken – inklusive Unterbrechungen, Stimmungswechseln und Gesprächsnuancen mit minimalem Prompting.

Jetzt verfügbar

Professionelle Voice Clones (PVCs) sind derzeit noch nicht vollständig für Eleven v3 optimiert, was zu geringerer Klonqualität im Vergleich zu früheren Modellen führen kann. Während dieser Forschungsvorschau empfiehlt es sich, für v3-Funktionen einen Instant Voice Clone (IVC) oder eine Design-Stimme zu wählen. Die PVC-Optimierung für v3 folgt in Kürze.

Eleven v3 ist in der ElevenLabs-Oberfläche verfügbar, und wir bieten 80 % Rabatt bis Ende Juni an. Die öffentliche API für Eleven v3 (Alpha) ist ebenfalls verfügbar. Egal ob Sie experimentieren oder im großen Maßstab einsetzen – jetzt ist der richtige Zeitpunkt, die Möglichkeiten zu erkunden.

Audio-Tags erstellen

KI-Sprache zu erzeugen, die performt – und nicht nur vorliest – gelingt mit dem gezielten Einsatz von Audio-Tags. Wir haben sieben kompakte, praxisnahe Anleitungen erstellt, die zeigen, wie Tags wie [WHISPER], [LAUGHS SOFTLY] oder [French accent] Kontext, Emotion, Tempo und sogar Dialoge mit mehreren Charakteren mit nur einem Modell steuern.

Zur Serie

  • Situationsbewusstsein – Tags wie [WHISPER], [SHOUTING] und [SIGH] lassen Eleven v3 auf den Moment reagieren – Spannung aufbauen, Warnungen abschwächen oder für Dramatik pausieren.
  • Charakter-Performance – Von [pirate voice] bis [French accent] wird aus Erzählung Rollenspiel. Wechseln Sie mitten im Satz die Rolle und steuern Sie Charakter-Performances, ohne das Modell zu wechseln.
  • Emotionale Kontexte – Hinweise wie [sigh], [excited] oder [tired] steuern die Stimmung im Moment – Spannung, Erleichterung oder Humor, ganz ohne Nachbearbeitung.
  • Erzählintelligenz – Storytelling ist Timing. Tags wie [pause], [awe] oder [dramatic tone] steuern Rhythmus und Betonung, damit KI-Stimmen den Zuhörer durch jede Szene führen.
  • Dialoge mit mehreren Charakteren – Schreiben Sie überlappende Sätze und schnelle Wortwechsel mit [interrupting], [overlapping] oder Tonwechseln. Ein Modell, viele Stimmen – natürliche Gespräche in einem Durchgang.
  • Vortragskontrolle – Feintuning von Tempo und Betonung. Tags wie [pause], [rushed] oder [drawn out] geben Ihnen Kontrolle über das Tempo und machen aus einfachem Text eine Performance.
  • Akzent-Emulation – Wechseln Sie Regionen im Handumdrehen – [American accent], [British accent], [Southern US accent] und mehr – für kulturell vielfältige Sprache ohne Modellwechsel.

Entdecken Sie Artikel des ElevenLabs-Teams

ElevenLabs

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden