
Revolut selects ElevenLabs Agents to bolster customer support
Reducing time to ticket resolution by 8x with multilingual conversational agents.
El modelo de Texto a Voz más expresivo
Nos alegra presentar Eleven v3 (alpha): el modelo de Texto a Voz más expresivo.
Esta versión de prueba ofrece un control y realismo sin precedentes en la generación de voz con:
Eleven v3 (alpha) requiere más prompt engineering que los modelos anteriores, pero los resultados son impresionantes.
Si trabajas en vídeos, audiolibros o herramientas de contenido, esto te permite alcanzar un nuevo nivel de expresividad. Para casos de uso en tiempo real o conversaciones, te recomendamos seguir usando v2.5 Turbo o Flash por ahora. Estamos desarrollando una versión en tiempo real de v3.
Eleven v3 ya está disponible en nuestra web y en la API.
Desde el lanzamiento de Multilingual v2, hemos visto cómo la voz IA se utiliza en cine profesional, desarrollo de videojuegos, educación y accesibilidad. Pero la limitación no era la calidad del sonido, sino la expresividad. Emociones más marcadas, interrupciones naturales y diálogos creíbles eran difíciles de conseguir.
Eleven v3 resuelve este reto. Lo hemos creado desde cero para ofrecer voces que suspiran, susurran, ríen y reaccionan, generando locuciones que suenan realmente vivas y naturales.
| Feature | What it unlocks |
|---|---|
| Audio tags | Inline control of tone, emotion, and non-verbal reactions |
| Dialogue mode | Multi-speaker conversations with natural pacing and interruptions |
| 70+ languages | Full coverage of high-demand global languages |
| Deeper text understanding | Better stress, cadence, and expressivity from text input |
Las etiquetas de audio se incluyen directamente en el guion y se escriben entre corchetes en minúscula. Puedes ver más sobre las etiquetas de audio en nuestra guía de prompting para v3 en la documentación.
Actualmente, los Clones de Voz Profesionales (PVC) no están totalmente optimizados para Eleven v3, por lo que la calidad puede ser inferior a la de modelos anteriores. Durante esta fase de prueba, lo mejor es usar un Instant Voice Clone (IVC) o una voz diseñada si necesitas las funciones de v3. Pronto optimizaremos los PVC para v3.
Por ejemplo, puedes escribir: “[whispers] Se acerca algo… [sighs] Lo noto.” O, si quieres más control expresivo, puedes combinar varias etiquetas:
| 1 | “[happily][shouts] We did it! [laughs].” |
Eleven v3 funciona en nuestra ruta de Texto a Voz actual. Además, presentamos una nueva ruta de API de Texto a Diálogo. Solo tienes que enviar un array estructurado de objetos JSON —cada uno representa el turno de un hablante— y el modelo genera un archivo de audio cohesivo y con solapamientos:
| 1 | [ |
| 2 | {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."}, |
| 3 | {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."}, |
| 4 | {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"} |
| 5 | ] |
| 6 |
La ruta gestiona automáticamente los cambios de hablante, emociones e interrupciones.
Descubre más aquí.
| Plan | Launch promo | At the end of June |
|---|---|---|
| UI (self-serve) | 80% off (~5× cheaper) | Same as Multilingual V2 |
| UI (enterprise) | 80% off business plan pricing | Business plan pricing |
Para activar v3:
El acceso por API y el soporte en Studio llegarán pronto. Si quieres acceso anticipado, contacta con ventas.
Eleven v3 (alpha) requiere más prompt engineering que nuestros modelos anteriores. Cuando funciona, el resultado es impresionante, pero la fiabilidad y la mayor latencia hacen que no sea adecuado para casos de uso en tiempo real o conversaciones. Para estos, recomendamos Eleven v2.5 Turbo/Flash.
Para más información, consulta la documentación completa de v3 y las preguntas frecuentes.
Nos hace ilusión ver cómo das vida a v3 en nuevos proyectos: desde narrativas inmersivas hasta producciones cinematográficas.

Reducing time to ticket resolution by 8x with multilingual conversational agents.
.webp&w=3840&q=95)
Yampa leverages ElevenLabs Flash V2.5 to scale human-like outbound voice agents with ultra-low latency and massive concurrency.