Stream cria agentes de IA multimodais com ElevenLabs

Última atualização 19 de nov. de 2025 • 3 minutos de leitura

Integrar o ElevenLabs Text to Speech reduziu o tempo de configuração em 10x para desenvolvedores que trabalham com voz

A Stream introduziu Agentes Vision - uma estrutura de código aberto que permite aos desenvolvedores criar experiências de IA multimodais de baixa latência, combinando vídeo, áudio e conversa em tempo real. A estrutura integra ElevenLabs Text to Speech para oferecer vozes expressivas e responsivas que permitem uma interação perfeita entre usuários e sistemas de IA.

Habilitando agentes multimodais em tempo real

Vision Agents dá à IA a capacidade de ver, ouvir e responder em tempo real. Construída sobre os SDKs de vídeo e áudio da Stream, a estrutura oferece uma base de baixa latência para desenvolvedores prototiparem e implementarem experiências de agentes multimodais.

Ao avaliar provedores de Text to Speech, a Stream escolheu o ElevenLabs por sua qualidade líder de mercado e facilidade de integração - o ElevenLabs agora serve como a principal opção de voz para os usuários da Stream.

“O ElevenLabs facilitou para nós a rápida implementação de capacidades poderosas de texto para fala em nosso SDK, permitindo que os Agentes respondam em tempo real com vozes expressivas a perguntas dos usuários ou como feedback ao que está vendo.” - Neevash Ramdial, Diretor de Marketing, Stream

Integração rápida, confiável e amigável para desenvolvedores

A Stream integrou o ElevenLabs em todo o seu código em apenas alguns dias, permitindo que os desenvolvedores adicionem saída de voz realista aos seus agentes de visão com configuração mínima. A integração agora oferece:

Configuração 10x mais rápida - A pré-integração com o ElevenLabs reduz o tempo de configuração de voz de 400 linhas de código para apenas 40.
Desempenho de baixa latência - A rápida geração de voz do ElevenLabs, combinada com a rede global de borda da Stream, garante uma resposta que parece natural e humana.
Experiência escalável para desenvolvedores - Os SDKs da Stream simplificam o processo de criação, teste e implementação de agentes multimodais.

Construindo o futuro da IA multimodal

Os Vision Agents da Stream demonstram como os modelos da ElevenLabs estão expandindo o que é possível em IA multimodal. Ao combinar compreensão visual com Text to Speech, os desenvolvedores podem criar agentes que não apenas veem, mas também falam e ouvem com fluência quase humana.

Quer construir com Text to Speech? Entre em contato aqui.

Explore artigos da equipe ElevenLabs

Agents Platform Stories

Agents Platform Stories

Revolut selects ElevenLabs Agents to bolster customer support

Reducing time to ticket resolution by 8x with multilingual conversational agents.

API Platform Stories

API Platform Stories

Yampa is scaling high-intensity outbound voice intelligence with ElevenLabs

Yampa leverages ElevenLabs Flash V2.5 to scale human-like outbound voice agents with ultra-low latency and massive concurrency.

Crie com o áudio IA da mais alta qualidade

Comece agora - é grátis

Já tem uma conta? Entrar