Pular para o conteúdo

O que são as Audio Tags Eleven v3 — e por que elas importam

As audio tags da ElevenLabs controlam emoção, ritmo e efeitos sonoros da voz IA.

Audio tags

Com o lançamento do Eleven v3, o uso de prompts de áudio se tornou uma habilidade essencial. Em vez de apenas digitar ou colar o texto que você quer que a voz IA fale, agora você pode usar um novo recurso — Audio Tags — para controlar desde a emoção até a entrega.

O Eleven v3 é um lançamento alpha prévia de pesquisa do novo modelo. Ele exige mais engenharia de prompt do que os modelos anteriores — mas os resultados são impressionantes.

As Audio Tags ElevenLabs são palavras entre colchetes que o novo modelo Eleven v3 entende e usa para direcionar a ação sonora. Elas podem ser desde [excited], [whispers] e [sighs] até [gunshot], [clapping] e [explosion].

As Audio Tags permitem que você defina como as vozes IA soam, incluindo sinais não verbais como tom, pausas e ritmo. Seja para criar audiolivros imersivos, personagens interativos ou mídias baseadas em diálogos, essas ferramentas simples no roteiro dão controle preciso sobre emoção e entrega.

Direcionando a performance com Audio Tags

Você pode colocar Audio Tags em qualquer parte do seu roteiro para ajustar a entrega em tempo real. Também é possível combinar tags dentro de um mesmo texto ou até em uma frase. As tags se dividem em categorias principais:

Emoções

Essas tags ajudam a definir o tom emocional da voz — seja mais sóbria, intensa ou animada. Por exemplo, você pode usar uma ou combinar [sad], [angry], [happily] e [sorrowful].

Background
Background

Direção de entrega

Essas tags são voltadas para o tom e a performance. Você pode usá-las para ajustar o volume e a energia em cenas que pedem mais suavidade ou intensidade. Exemplos: [whispers], [shouts] e até [x accent].

Background
Background

Reações humanas

A fala natural inclui reações. Você pode usar isso para trazer mais realismo, inserindo momentos naturais e espontâneos na fala. Por exemplo: [laughs], [clears throat] e [sighs].

Background
Background

Baseado em um modelo mais expressivo

Por trás desses recursos está a nova arquitetura do v3. O modelo entende o contexto do texto de forma mais profunda, o que permite seguir sinais emocionais, mudanças de tom e transições de falante de maneira mais natural. Com as Audio Tags, isso traz uma expressividade muito maior do que era possível antes no TTS.

Agora você também pode criar diálogos com vários personagens que soam espontâneos — lidando com interrupções, mudanças de humor e nuances de conversa com pouco esforço.

Disponível agora

Os Professional Voice Clones (PVCs) ainda não estão totalmente otimizados para o Eleven v3, o que pode resultar em clones de qualidade inferior em relação aos modelos anteriores. Durante esta fase de prévia de pesquisa, o ideal é usar um Instant Voice Clone (IVC) ou uma voz criada especialmente para seu projeto se quiser aproveitar os recursos do v3. A otimização dos PVCs para o v3 chegará em breve.

O Eleven v3 já está disponível na interface da ElevenLabs, e estamos oferecendo 80% de desconto até o final de junho. A API pública do Eleven v3 (alpha) também está disponível. Seja para experimentar ou usar em escala, agora é a hora de explorar o que é possível.

Criando Audio Tags

Criar fala com IA que interpreta — e não apenas lê — depende do domínio das Audio Tags. Preparamos sete guias práticos e diretos que mostram como tags como [WHISPER], [LAUGHS SOFTLY], ou [French accent] permitem definir contexto, emoção, ritmo e até diálogos com vários personagens usando um único modelo.

Veja a série completa

  • Consciência de situação – Tags como [WHISPER], [SHOUTING], e [SIGH] fazem o Eleven v3 reagir ao momento — aumentando a tensão, suavizando alertas ou criando suspense com uma pausa.
  • Performance de personagem – De [pirate voice] a [French accent], as tags transformam a narração em interpretação. Mude de personagem no meio da fala e direcione performances completas sem trocar de modelo.
  • Contexto emocional – Sinais como [sigh], [excited], ou [tired] conduzem as emoções a cada momento, trazendo tensão, alívio ou humor — sem precisar regravar.
  • Inteligência narrativa – Contar histórias é questão de ritmo. Tags como [pause], [awe], ou [dramatic tone] controlam o ritmo e a ênfase, guiando o ouvinte em cada momento.
  • Diálogo com vários personagens – Escreva falas sobrepostas e conversas rápidas com [interrupting], [overlapping], ou mudanças de tom. Um modelo, várias vozes — conversas naturais em uma só gravação.
  • Controle de entrega – Ajuste ritmo e ênfase. Tags como [pause], [rushed], ou [drawn out] dão precisão ao tempo, transformando texto simples em interpretação.
  • Emulação de sotaque – Troque de região na hora — [American accent], [British accent], [Southern US accent] e outros — para falas com riqueza cultural sem trocar de modelo.

Explore artigos da equipe ElevenLabs

ElevenLabs

Crie com o áudio IA da mais alta qualidade