
Eleven v3 Audio Tags: Dando consciência situacional ao áudio com IA
Aprimore a fala com IA usando Eleven v3 Audio Tags. Controle tom, emoção e ritmo para conversas naturais. Adicione consciência situacional ao seu texto para fala.
As audio tags da ElevenLabs controlam emoção, ritmo e efeitos sonoros da voz IA.
Com o lançamento do Eleven v3, o uso de prompts de áudio se tornou uma habilidade essencial. Em vez de apenas digitar ou colar o texto que você quer que a voz IA fale, agora você pode usar um novo recurso — Audio Tags — para controlar desde a emoção até a entrega.
O Eleven v3 é um lançamento alpha prévia de pesquisa do novo modelo. Ele exige mais engenharia de prompt do que os modelos anteriores — mas os resultados são impressionantes.
As Audio Tags ElevenLabs são palavras entre colchetes que o novo modelo Eleven v3 entende e usa para direcionar a ação sonora. Elas podem ser desde [excited], [whispers] e [sighs] até [gunshot], [clapping] e [explosion].
As Audio Tags permitem que você defina como as vozes IA soam, incluindo sinais não verbais como tom, pausas e ritmo. Seja para criar audiolivros imersivos, personagens interativos ou mídias baseadas em diálogos, essas ferramentas simples no roteiro dão controle preciso sobre emoção e entrega.
Você pode colocar Audio Tags em qualquer parte do seu roteiro para ajustar a entrega em tempo real. Também é possível combinar tags dentro de um mesmo texto ou até em uma frase. As tags se dividem em categorias principais:
Essas tags ajudam a definir o tom emocional da voz — seja mais sóbria, intensa ou animada. Por exemplo, você pode usar uma ou combinar [sad], [angry], [happily] e [sorrowful].
Essas tags são voltadas para o tom e a performance. Você pode usá-las para ajustar o volume e a energia em cenas que pedem mais suavidade ou intensidade. Exemplos: [whispers], [shouts] e até [x accent].
A fala natural inclui reações. Você pode usar isso para trazer mais realismo, inserindo momentos naturais e espontâneos na fala. Por exemplo: [laughs], [clears throat] e [sighs].
Por trás desses recursos está a nova arquitetura do v3. O modelo entende o contexto do texto de forma mais profunda, o que permite seguir sinais emocionais, mudanças de tom e transições de falante de maneira mais natural. Com as Audio Tags, isso traz uma expressividade muito maior do que era possível antes no TTS.
Agora você também pode criar diálogos com vários personagens que soam espontâneos — lidando com interrupções, mudanças de humor e nuances de conversa com pouco esforço.
Os Professional Voice Clones (PVCs) ainda não estão totalmente otimizados para o Eleven v3, o que pode resultar em clones de qualidade inferior em relação aos modelos anteriores. Durante esta fase de prévia de pesquisa, o ideal é usar um Instant Voice Clone (IVC) ou uma voz criada especialmente para seu projeto se quiser aproveitar os recursos do v3. A otimização dos PVCs para o v3 chegará em breve.
O Eleven v3 já está disponível na interface da ElevenLabs, e estamos oferecendo 80% de desconto até o final de junho. A API pública do Eleven v3 (alpha) também está disponível. Seja para experimentar ou usar em escala, agora é a hora de explorar o que é possível.
Criar fala com IA que interpreta — e não apenas lê — depende do domínio das Audio Tags. Preparamos sete guias práticos e diretos que mostram como tags como [WHISPER], [LAUGHS SOFTLY], ou [French accent] permitem definir contexto, emoção, ritmo e até diálogos com vários personagens usando um único modelo.
[WHISPER], [SHOUTING], e [SIGH] fazem o Eleven v3 reagir ao momento — aumentando a tensão, suavizando alertas ou criando suspense com uma pausa.[pirate voice] a [French accent], as tags transformam a narração em interpretação. Mude de personagem no meio da fala e direcione performances completas sem trocar de modelo.[sigh], [excited], ou [tired] conduzem as emoções a cada momento, trazendo tensão, alívio ou humor — sem precisar regravar.[pause], [awe], ou [dramatic tone] controlam o ritmo e a ênfase, guiando o ouvinte em cada momento.[interrupting], [overlapping], ou mudanças de tom. Um modelo, várias vozes — conversas naturais em uma só gravação.[pause], [rushed], ou [drawn out] dão precisão ao tempo, transformando texto simples em interpretação.[American accent], [British accent], [Southern US accent] e outros — para falas com riqueza cultural sem trocar de modelo.
Aprimore a fala com IA usando Eleven v3 Audio Tags. Controle tom, emoção e ritmo para conversas naturais. Adicione consciência situacional ao seu texto para fala.

Reducing time to ticket resolution by 8x with multilingual conversational agents.