Pular para o conteúdo

Apresentando o Eleven v3 (alpha)

O modelo de Text to Speech mais expressivo

v3

Temos o prazer de apresentar o Eleven v3 (alpha) — o modelo de Text to Speech mais expressivo.

Esta prévia de pesquisa oferece controle e realismo inéditos na geração de fala com:

  • Mais de 70 idiomas
  • Diálogo com vários falantes
  • Tags de áudio como [excited], [whispers] e [sighs]

Eleven v3 (alpha) exige mais engenharia de prompts do que os modelos anteriores — mas os resultados são impressionantes.

Se você trabalha com vídeos, audiolivros ou ferramentas de mídia, isso abre um novo nível de expressividade. Para usos em tempo real e conversacionais, recomendamos continuar com o v2.5 Turbo ou Flash por enquanto. Uma versão em tempo real do v3 está em desenvolvimento.

O Eleven v3 já está disponível em nosso site e na API.

Por que criamos o v3

Desde o lançamento do Multilingual v2, vimos a voz IA ser adotada em filmes profissionais, desenvolvimento de jogos, educação e acessibilidade. Mas a limitação não era a qualidade do som — era a expressividade. Emoções mais marcantes, interrupções naturais e conversas críveis eram difíceis de alcançar.

O Eleven v3 resolve essa questão. Ele foi criado do zero para entregar vozes que suspiram, sussurram, riem e reagem — gerando falas que parecem realmente vivas e responsivas.

O que há de novo no Eleven v3 (alpha)

Feature What it unlocks
Audio tags Inline control of tone, emotion, and non-verbal reactions
Dialogue mode Multi-speaker conversations with natural pacing and interruptions
70+ languages Full coverage of high-demand global languages
Deeper text understanding Better stress, cadence, and expressivity from text input

Hear v3 for yourself

Background
Background

Como usar tags de áudio

As tags de áudio ficam no próprio texto do seu roteiro e são escritas entre colchetes em minúsculas. Saiba mais sobre as tags de áudio em nosso guia de prompting para o v3 na documentação.

Atualmente, os Professional Voice Clones (PVCs) ainda não estão totalmente otimizados para o Eleven v3, o que pode resultar em clones de qualidade inferior em relação aos modelos anteriores. Durante esta fase de prévia de pesquisa, o ideal é usar um Instant Voice Clone (IVC) ou uma voz criada especialmente para seu projeto, caso precise dos recursos do v3. A otimização dos PVCs para o v3 chegará em breve.

Por exemplo, você pode usar o prompt: “[whispers] Algo está vindo... [sighs] Eu posso sentir.” Ou, para mais controle expressivo, combinar várias tags:

1[happily][shouts] We did it! [laughs].

Criando diálogos com vários falantes

O Eleven v3 já está disponível no nosso endpoint atual de Text to Speech. Além disso, estamos lançando um novo endpoint Text to Dialogue na API. Basta enviar um array estruturado de objetos JSON — cada um representando a fala de um personagem — e o modelo gera um arquivo de áudio coeso, com sobreposição de vozes:

1[
2 {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."},
3 {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."},
4 {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"}
5]
6

O endpoint gerencia automaticamente as transições entre falantes, mudanças de emoção e interrupções.

Saiba mais aqui.

v3 is our most expressive model

Background
Background

Preços e disponibilidade

Plan Launch promo At the end of June
UI (self-serve) 80% off (~5× cheaper) Same as Multilingual V2
UI (enterprise) 80% off business plan pricing Business plan pricing

Para ativar o v3:

  • Use o Model Picker e selecione Eleven v3 (alpha)

O acesso via API e suporte no Studio estarão disponíveis em breve. Para acesso antecipado, por favor fale com vendas.

Quando não usar o v3

O Eleven v3 (alpha) exige mais engenharia de prompts do que nossos modelos anteriores. Quando funciona, o resultado é impressionante, mas a confiabilidade e a latência maior fazem com que ele não seja indicado para usos em tempo real ou conversacionais. Para esses casos, recomendamos o Eleven v2.5 Turbo/Flash.

Para mais informações, consulte a documentação completa do v3 e o FAQ.

Try it today

Background
Background
  1. Faça login na interface ElevenLabs
  2. Selecione v3 (alpha) no menu de modelos
  3. Cole seu roteiro — use tags ou diálogos
  4. Gerar áudio

Estamos animados para ver como você vai usar o v3 em novos projetos — de narrativas imersivas a produções cinematográficas.

ElevenLabs

Crie com o áudio IA da mais alta qualidade