
Eleven v3 Audio Tags: Ger situationsmedvetenhet till AI-ljud
Förbättra AI-tal med Eleven v3 Audio Tags. Kontrollera ton, känsla och tempo för naturliga samtal. Lägg till situationsmedvetenhet till din text to speech.
ElevenLabs audio tags styr AI-röstens känsla, tempo och ljudeffekter.
Med lanseringen av Eleven v3 har audio prompting blivit en viktig färdighet. Istället för att bara skriva eller klistra in det du vill att AI-rösten ska säga, kan du nu använda en ny funktion – Audio Tags – för att styra allt från känsla till leverans.
Eleven v3 är en alpha-version forskningsförhandsvisning av den nya modellen. Den kräver mer prompt engineering än tidigare modeller – men resultaten är imponerande.
ElevenLabs Audio Tags är ord inom hakparenteser som den nya Eleven v3-modellen kan tolka och använda för att styra ljudet. Det kan vara allt från [excited], [whispers] och [sighs] till [gunshot], [clapping] och [explosion].
Med Audio Tags kan du forma hur AI-röster låter, inklusive icke-verbala signaler som ton, pauser och tempo. Oavsett om du skapar ljudböcker, interaktiva karaktärer eller dialogbaserade medier ger dessa enkla verktyg dig exakt kontroll över känsla och leverans.
Du kan placera Audio Tags var som helst i ditt manus för att styra leveransen i realtid. Du kan också kombinera flera tags i ett manus eller till och med i en mening. Tags delas in i huvudkategorier:
Dessa tags hjälper dig att sätta känsloläget på rösten – oavsett om det är sorgligt, intensivt eller glatt. Du kan till exempel använda en eller flera av [sad], [angry], [happily] och [sorrowful].
Dessa handlar mer om ton och uttryck. Använd dem för att justera volym och energi i scener som kräver återhållsamhet eller kraft. Exempel: [whispers], [shouts] och även [x accent].
Naturligt tal innehåller reaktioner. Du kan använda detta för att lägga till realism genom att infoga naturliga, spontana ögonblick i talet. Till exempel: [laughs], [clears throat] och [sighs].
Bakom dessa funktioner finns den nya arkitekturen i v3. Modellen förstår textens sammanhang på en djupare nivå, vilket gör att den kan följa känslomässiga signaler, tonväxlingar och talarbyten mer naturligt. Tillsammans med Audio Tags ger det en uttrycksfullhet som tidigare inte var möjlig i TTS.
Du kan nu också skapa dialoger med flera röster som känns spontana – med avbrott, skiftande stämningar och nyanserad konversation med minimalt promptande.
Professional Voice Clones (PVC) är ännu inte helt optimerade för Eleven v3, vilket kan ge lägre kloningskvalitet jämfört med tidigare modeller. Under denna forskningsförhandsvisning rekommenderar vi att du använder en Instant Voice Clone (IVC) eller en designad röst om du vill använda v3-funktioner. PVC-optimering för v3 kommer snart.
Eleven v3 finns i ElevenLabs-gränssnittet, och vi erbjuder 80% rabatt till slutet av juni. Publikt API för Eleven v3 (alpha) är också tillgängligt. Oavsett om du experimenterar eller kör i stor skala är det nu du kan utforska möjligheterna.
Att skapa AI-tal som presterar – inte bara läser – handlar om att bemästra Audio Tags. Vi har tagit fram sju korta, praktiska guider som visar hur tags som [WHISPER], [LAUGHS SOFTLY], eller [French accent] låter dig styra sammanhang, känsla, tempo och till och med dialog mellan flera karaktärer med en enda modell.
[WHISPER], [SHOUTING] och [SIGH] gör att Eleven v3 kan reagera på stunden – höja spänningen, mildra varningar eller pausa för effekt.[pirate voice] till [French accent] förvandlar tags berättande till rollspel. Byt personlighet mitt i en replik och styr hela karaktärsprestationer utan att byta modell.[sigh], [excited] eller [tired] styr känslan i stunden, lägger på spänning, lättnad eller humor – utan att spela in på nytt.[pause], [awe] eller [dramatic tone] styr rytm och betoning så att AI-rösten leder lyssnaren genom varje del.[interrupting], [overlapping] eller tonväxlingar. En modell, många röster – naturlig konversation i en tagning.[pause], [rushed] eller [drawn out] ger dig kontroll över tempot och gör texten till en prestation.[American accent], [British accent], [Southern US accent] och fler – för kulturellt rikt tal utan att byta modell.
Förbättra AI-tal med Eleven v3 Audio Tags. Kontrollera ton, känsla och tempo för naturliga samtal. Lägg till situationsmedvetenhet till din text to speech.

Reducing time to ticket resolution by 8x with multilingual conversational agents.