Qué son las Audio Tags de Eleven v3 y por qué importan

Última actualización 21 ene 2026 • 5 minutos de lectura

A man with glasses and a beard looking to the side in a room with bookshelves.

Las audio tags de ElevenLabs controlan la emoción, el ritmo y los efectos de sonido de la voz IA.

Con el lanzamiento de Eleven v3, el audio prompting se ha convertido en una habilidad esencial. Ahora, en vez de solo escribir o pegar el texto que quieres que diga la voz IA, puedes usar una nueva función — Audio Tags — para controlar desde la emoción hasta la entonación.

Eleven v3 es una versión alfa en fase de investigación del nuevo modelo. Requiere más prompt engineering que los modelos anteriores, pero los resultados son sorprendentes.

Las Audio Tags de ElevenLabs son palabras entre corchetes que el nuevo modelo Eleven v3 interpreta para dirigir la acción sonora. Pueden ser desde [excited], [whispers] y [sighs] hasta [gunshot], [clapping] o [explosion].

Las Audio Tags te permiten definir cómo suenan las voces IA, incluyendo señales no verbales como tono, pausas y ritmo. Ya sea que crees audiolibros inmersivos, personajes interactivos o medios centrados en el diálogo, estas herramientas sencillas a nivel de guion te dan control preciso sobre la emoción y la entonación.

Dirige la interpretación con Audio Tags

Puedes colocar Audio Tags en cualquier parte de tu guion para ajustar la entonación en tiempo real. También puedes combinar varias tags en un mismo guion o incluso en una frase. Las tags se agrupan en varias categorías principales:

Emociones

Estas tags te ayudan a marcar el tono emocional de la voz, ya sea serio, intenso o alegre. Por ejemplo, puedes usar una o varias como [sad], [angry], [happily] o [sorrowful].

Dirección de entonación

Estas tags se centran más en el tono y la interpretación. Puedes usarlas para ajustar el volumen y la energía en escenas que requieren contención o fuerza. Ejemplos: [whispers], [shouts] o incluso [x accent].

Reacciones humanas

El habla natural incluye reacciones. Puedes añadir realismo insertando momentos espontáneos en el discurso, como [laughs], [clears throat] o [sighs].

Basado en un modelo más expresivo

Detrás de estas funciones está la nueva arquitectura de v3. El modelo entiende el contexto del texto a un nivel más profundo, lo que le permite seguir señales emocionales, cambios de tono y transiciones de hablante de forma más natural. Combinado con las Audio Tags, esto permite una expresividad mucho mayor que antes en Texto a Voz.

Ahora también puedes crear diálogos con varios personajes que suenan espontáneos, gestionando interrupciones, cambios de humor y matices conversacionales con muy poco prompting.

Disponible ya

Los clones de voz profesionales (PVC) aún no están totalmente optimizados para Eleven v3, por lo que la calidad puede ser inferior a la de modelos anteriores. Durante esta fase de investigación, lo mejor es usar un Instant Voice Clone (IVC) o una voz diseñada si necesitas las funciones de v3. La optimización de PVC para v3 llegará pronto.

Eleven v3 está disponible en la interfaz de ElevenLabs y ofrecemos un 80% de descuento hasta finales de junio. La API pública de Eleven v3 (alfa) también está disponible. Tanto si quieres experimentar como si vas a escalar, ahora es el momento de descubrir todo lo que puedes hacer.

Cómo crear Audio Tags

Crear voz IA que interpreta — no solo lee — depende de dominar las Audio Tags. Hemos preparado siete guías prácticas y breves que muestran cómo tags como [WHISPER], [LAUGHS SOFTLY], o [French accent] te permiten definir el contexto, la emoción, el ritmo e incluso el diálogo entre varios personajes con un solo modelo.

Descubre la serie

Conciencia situacional – Tags como [WHISPER], [SHOUTING], y [SIGH] permiten que Eleven v3 reaccione al momento: subiendo la tensión, suavizando advertencias o haciendo pausas para crear suspense.
Interpretación de personajes – Desde [pirate voice] hasta [French accent], las tags convierten la narración en interpretación. Cambia de personaje en mitad de una frase y dirige interpretaciones completas sin cambiar de modelo.
Contexto emocional – Señales como [sigh], [excited], o [tired] marcan el sentimiento en cada momento, añadiendo tensión, alivio o humor, sin necesidad de volver a grabar.
Inteligencia narrativa – Contar historias es cuestión de ritmo. Tags como [pause], [awe], o [dramatic tone] controlan el ritmo y el énfasis para que las voces IA guíen al oyente en cada momento.
Diálogo entre varios personajes – Escribe líneas superpuestas y réplicas rápidas con [interrupting], [overlapping], o cambios de tono. Un solo modelo, muchas voces: conversación natural en una sola toma.
Control de entonación – Ajusta el ritmo y el énfasis al detalle. Tags como [pause], [rushed], o [drawn out] te dan precisión sobre el tempo, convirtiendo texto plano en interpretación.
Imitación de acentos – Cambia de región al instante: [American accent], [British accent], [Southern US accent] y más, para voces con riqueza cultural sin cambiar de modelo.

Descubre artículos del equipo de ElevenLabs

Recursos

Recursos

Eleven v3 Audio Tags: Dando conciencia situacional al audio IA

Mejora el habla IA con Eleven v3 Audio Tags. Controla el tono, la emoción y el ritmo para una conversación natural. Añade conciencia situacional a tu Text to Speech.

Agents Platform Stories

Agents Platform Stories

Revolut selects ElevenLabs Agents to bolster customer support

Reducing time to ticket resolution by 8x with multilingual conversational agents.

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión