.webp&w=3840&q=80)
Speech to Text
Os modelos de Speech to Text mais precisos
Scribe v2 é o modelo de Speech to Text mais preciso. Scribe v2 Realtime define o padrão para transcrições ao vivo - impulsionando agentes e aplicações em tempo real. Ambos disponíveis via API.
Speech to Text em tempo real em menos de 150 ms com Scribe v2 Realtime
Scribe v2 Realtime usa a arquitetura de streaming da ElevenLabs para transformar fala ao vivo em texto instantaneamente, em mais de 90 idiomas.

Transcreva fala ao vivo
Scribe v2 Realtime captura fala ao vivo em menos de 150 ms com precisão excepcional – desenvolvido para agentes, reuniões e Agentes de IA que exigem compreensão instantânea.
Alta precisão e latência ultrabaixa
Scribe v2 Realtime oferece precisão líder do setor com latência inferior a 150 ms, estabelecendo um novo padrão para reconhecimento de fala em tempo real.
Detecção de Atividade de Voz
Detecte automaticamente quando a fala começa e termina, segmentando a fala com precisão para um processamento ao vivo mais suave.
Transcreva em mais de 90 idiomas
Oferecendo precisão excepcional em sotaques, dialetos e condições de gravação.
Ao vivo na API
Integre Scribe Realtime v2 aos seus produtos com a API. Com suporte completo para streaming e controle de commit.
Converta fala em texto, legendas e edite áudio e vídeo com Scribe v2
Crie legendas, subtítulos e transcrições editáveis para podcasts, vídeos, entrevistas e outros conteúdos gravados – tudo com precisão líder do setor no Studio ou via API.



Transcreva áudio e vídeo
Envie áudio ou vídeo em qualquer formato — MP4, MOV, MP3, WAV e mais. Scribe v2 converte automaticamente a fala em texto preciso, pronto para legendas, subtítulos ou edição.
Precisão de transcrição líder do setor
Scribe v2 alcança precisão de transcrição líder do setor, entregando texto limpo e editável mesmo em condições de áudio desafiadoras ou com sotaques diversos.
Prompting de termos-chave
Selecione até 100 palavras ou frases específicas para que o Scribe transcreva com precisão com base no contexto.
Tagging dinâmico de áudio
De risadas a passos, Scribe v2 marca cada evento sonoro, enriquecendo suas transcrições com todo o contexto.
Detecção de falantes e entidades
Scribe v2 distingue intuitivamente e rotula cada falante e calcula os timestamps das entidades.
Segurança e infraestrutura de nível empresarial em escala

Desenvolvido para todo workflow, de API a agentes
APIs e SDKs de Speech to Text
Integre Scribe v2 e Scribe v2 Realtime ao seu produto com a API ou SDKs.

Agentes ElevenLabs
Habilite interações de voz em tempo real com transcrição instantânea e de baixa latência.
.webp&w=3840&q=100)
ElevenLabs Studio
Converta gravações em texto editável, legendas e conteúdo reutilizável.

Perguntas frequentes
Transcrição de AI Speech to Text em mais de 90 idiomas
Nossa transcrição de AI Speech to Text suporta mais de 90 idiomas, basta selecionar o idioma e enviar seu arquivo de áudio.

