Apresentando a IA Conversacional Multimodal

Última atualização 21 de jan. de 2026 • 2 minutos de leitura

Nossos agentes de IA agora conseguem processar palavras faladas e entradas de texto ao mesmo tempo, tornando as interações com o usuário mais naturais, eficientes e resilientes.

Fale com o time de vendas

Hoje, a ElevenLabs tem o prazer de anunciar uma grande melhoria na nossa plataforma de Conversational AI: a chegada da multimodalidade real de texto e voz. Nossos agentes de IA agora entendem e processam linguagem falada e texto digitado ao mesmo tempo. Essa novidade foi criada para tornar as interações mais naturais, flexíveis e eficazes em diversas situações.

Superando Limitações das Interações Apenas por Voz

Apesar da voz ser uma forma poderosa e intuitiva de comunicação, agentes de IA apenas por voz podem enfrentar desafios em algumas situações. Observamos problemas comuns em implantações empresariais, como:

Imprecisões na Transcrição: Capturar dados alfanuméricos específicos, como e-mails, IDs ou códigos de rastreamento apenas por voz pode ser difícil. Erros podem causar problemas sérios, como buscar registros de clientes errados.
Experiência do Usuário para Entradas Complexas: Pedir para o usuário informar longas sequências de números, como dados de cartão de crédito, pode ser frustrante e gerar erros.

O Poder da Multimodalidade: Texto e Voz Juntos

Ao permitir que os agentes processem texto e voz, damos ao usuário a liberdade de escolher o método de entrada que preferir. Essa abordagem híbrida torna as conversas mais fluidas e robustas. O usuário pode falar normalmente e, quando precisar de mais precisão ou achar mais prático, pode digitar o texto na mesma interação.

Principais Benefícios

A chegada da multimodalidade de texto e voz traz várias vantagens importantes:

Mais Precisão nas Interações: Permite que o usuário digite informações difíceis de falar ou que podem gerar erros na transcrição.
Melhor Experiência do Usuário: Oferece flexibilidade, tornando as interações mais naturais e menos limitadas, especialmente para dados sensíveis ou complexos.
Maior Taxa de Conclusão de Tarefas: Reduz erros e frustrações, aumentando o sucesso das interações.
Conversas Mais Naturais: Permite alternar facilmente entre tipos de entrada, como em uma conversa humana.

Principais Funcionalidades

Nossa IA Conversacional multimodal inclui as seguintes funções:

Processamento Simultâneo: Os agentes interpretam e respondem a entradas de voz e texto ao mesmo tempo, em tempo real.
Configuração Fácil: A entrada de texto pode ser ativada facilmente nas configurações do widget.
Modo Apenas Texto: Os agentes podem ser configurados para funcionar como chatbots tradicionais, só com texto, se necessário.

Integração e Implantação Simples

Essa nova funcionalidade multimodal já é compatível em toda a nossa plataforma:

Widget: Pode ser implementado com uma única linha de HTML.
SDKs: Suporte completo para desenvolvedores que querem integrar de forma avançada.
WebSocket: Comunicação bidirecional em tempo real com recursos multimodais.

Baseado em uma Plataforma de Referência

As interações multimodais aproveitam todas as inovações já presentes na nossa plataforma de Conversational AI:

Vozes de Referência no Mercado: Acesso às vozes de mais alta qualidade em mais de 32 idiomas.
Modelos Avançados de Fala: Utilizando nossas tecnologias de ponta em speech-to-text e text-to-speech.
Infraestrutura Global: Já disponível em todo lugar com infraestrutura Twilio e SIP trunking.

Como Começar

Para usar a multimodalidade de texto e voz com seus agentes de Conversational AI da ElevenLabs,acesse as configurações do seu widget.:

Ative a opção "Permitir entrada de texto".
Acreditamos que a multimodalidade texto+voz vai ampliar muito as possibilidades e a experiência dos usuários de

Conversational AI. Estamos animados para ver como nossos usuários vão aproveitar esse novo recurso.

Explore artigos da equipe ElevenLabs

Agents Platform Stories

Agents Platform Stories

Revolut selects ElevenLabs Agents to bolster customer support

Reducing time to ticket resolution by 8x with multilingual conversational agents.

API Platform Stories

API Platform Stories

Yampa is scaling high-intensity outbound voice intelligence with ElevenLabs

Yampa leverages ElevenLabs Flash V2.5 to scale human-like outbound voice agents with ultra-low latency and massive concurrency.

Crie com o áudio IA da mais alta qualidade

Comece agora - é grátis

Já tem uma conta? Entrar