Gå till innehåll

Vad är Eleven v3 Audio Tags – och varför de är viktiga

ElevenLabs audio tags styr AI-röstens känsla, tempo och ljudeffekter.

Audio tags

Med lanseringen av Eleven v3 har audio prompting blivit en viktig färdighet. Istället för att bara skriva eller klistra in det du vill att AI-rösten ska säga, kan du nu använda en ny funktion – Audio Tags – för att styra allt från känsla till leverans.

Eleven v3 är en alpha-version forskningsförhandsvisning av den nya modellen. Den kräver mer prompt engineering än tidigare modeller – men resultaten är imponerande.

ElevenLabs Audio Tags är ord inom hakparenteser som den nya Eleven v3-modellen kan tolka och använda för att styra ljudet. Det kan vara allt från [excited], [whispers] och [sighs] till [gunshot], [clapping] och [explosion].

Med Audio Tags kan du forma hur AI-röster låter, inklusive icke-verbala signaler som ton, pauser och tempo. Oavsett om du skapar ljudböcker, interaktiva karaktärer eller dialogbaserade medier ger dessa enkla verktyg dig exakt kontroll över känsla och leverans.

Styra prestation med Audio Tags

Du kan placera Audio Tags var som helst i ditt manus för att styra leveransen i realtid. Du kan också kombinera flera tags i ett manus eller till och med i en mening. Tags delas in i huvudkategorier:

Känslor

Dessa tags hjälper dig att sätta känsloläget på rösten – oavsett om det är sorgligt, intensivt eller glatt. Du kan till exempel använda en eller flera av [sad], [angry], [happily] och [sorrowful].

Background
Background

Leverans

Dessa handlar mer om ton och uttryck. Använd dem för att justera volym och energi i scener som kräver återhållsamhet eller kraft. Exempel: [whispers], [shouts] och även [x accent].

Background
Background

Mänskliga reaktioner

Naturligt tal innehåller reaktioner. Du kan använda detta för att lägga till realism genom att infoga naturliga, spontana ögonblick i talet. Till exempel: [laughs], [clears throat] och [sighs].

Background
Background

Bygger på en mer uttrycksfull modell

Bakom dessa funktioner finns den nya arkitekturen i v3. Modellen förstår textens sammanhang på en djupare nivå, vilket gör att den kan följa känslomässiga signaler, tonväxlingar och talarbyten mer naturligt. Tillsammans med Audio Tags ger det en uttrycksfullhet som tidigare inte var möjlig i TTS.

Du kan nu också skapa dialoger med flera röster som känns spontana – med avbrott, skiftande stämningar och nyanserad konversation med minimalt promptande.

Tillgängligt nu

Professional Voice Clones (PVC) är ännu inte helt optimerade för Eleven v3, vilket kan ge lägre kloningskvalitet jämfört med tidigare modeller. Under denna forskningsförhandsvisning rekommenderar vi att du använder en Instant Voice Clone (IVC) eller en designad röst om du vill använda v3-funktioner. PVC-optimering för v3 kommer snart.

Eleven v3 finns i ElevenLabs-gränssnittet, och vi erbjuder 80% rabatt till slutet av juni. Publikt API för Eleven v3 (alpha) är också tillgängligt. Oavsett om du experimenterar eller kör i stor skala är det nu du kan utforska möjligheterna.

Skapa Audio Tags

Att skapa AI-tal som presterar – inte bara läser – handlar om att bemästra Audio Tags. Vi har tagit fram sju korta, praktiska guider som visar hur tags som [WHISPER], [LAUGHS SOFTLY], eller [French accent] låter dig styra sammanhang, känsla, tempo och till och med dialog mellan flera karaktärer med en enda modell.

Utforska serien

  • Situationsanpassning – Tags som [WHISPER], [SHOUTING] och [SIGH] gör att Eleven v3 kan reagera på stunden – höja spänningen, mildra varningar eller pausa för effekt.
  • Karaktärsprestation – Från [pirate voice] till [French accent] förvandlar tags berättande till rollspel. Byt personlighet mitt i en replik och styr hela karaktärsprestationer utan att byta modell.
  • Känslomässigt sammanhang – Signaler som [sigh], [excited] eller [tired] styr känslan i stunden, lägger på spänning, lättnad eller humor – utan att spela in på nytt.
  • Berättarintelligens – Berättande handlar om timing. Tags som [pause], [awe] eller [dramatic tone] styr rytm och betoning så att AI-rösten leder lyssnaren genom varje del.
  • Dialog med flera röster – Skriv överlappande repliker och snabba replikskiften med [interrupting], [overlapping] eller tonväxlingar. En modell, många röster – naturlig konversation i en tagning.
  • Leveranskontroll – Finjustera tempo och betoning. Tags som [pause], [rushed] eller [drawn out] ger dig kontroll över tempot och gör texten till en prestation.
  • Accentimitation – Byt region direkt – [American accent], [British accent], [Southern US accent] och fler – för kulturellt rikt tal utan att byta modell.

Utforska artiklar av ElevenLabs-teamet

ElevenLabs

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in