Salta al contenido

API de Texto a Voz

Generación de voz ultrarrealista y con baja latencia

Crea con generación de voz de alta calidad y controlable para aplicaciones en tiempo real o en lote. Modelos optimizados para latencia, fidelidad y coherencia en contenido largo.

En la antigua tierra de Eldoria, donde los cielos brillaban y los bosques susurraban secretos al viento, vivía un dragón llamado Zephyros. [sarcastically] No del tipo que “lo quema todo... [giggles] sino que era amable, sabio, con ojos como estrellas antiguas. [whispers] Incluso los pájaros guardaban silencio cuando él pasaba.
  • Lovable
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

Basado en los modelos de voz IA más potentes

Elige el modelo que mejor se adapte a tu caso: desde agentes con latencia ultrabaja hasta narración expresiva y de larga duración.

Scribe 1

Flash v2.5

Nuestro modelo de síntesis de voz con menor latencia

  • Latencia ultrabaja (~75ms)
  • 32 idiomas disponibles
  • Límite de 40.000 caracteres
  • ~$0,06 por minuto
Blurred background

Turbo v2.5

Equilibrio entre calidad y latencia

  • Baja latencia (~250-300ms)
  • Generación de voz de alta calidad
  • 32 idiomas disponibles
  • Límite de 40.000 caracteres
  • ~$0,06 por minuto
Scribe background 4

Multilingüe v2

Modelo de síntesis de voz realista y de calidad constante

  • Voz natural
  • 29 idiomas disponibles
  • Límite de 10.000 caracteres
  • Pensado para contenido largo
  • ~$0,12 por minuto
Translate media step 5 background

Eleven v3

Nuestro modelo más expresivo y emocional

  • Entonación y actuación dramática
  • Más de 70 idiomas disponibles
  • Límite de 3.000 caracteres
  • Diálogo multivoces
  • ~$0,12 por minuto

Todo lo que necesitas para crear voz lista para producción

Genera voz expresiva y controlable con modelos pensados para uso en tiempo real, narraciones largas y producción.

Controla la emoción y la entonación

Crea voz controlable y expresiva, con emoción, eventos de audio y paisajes sonoros envolventes.
Control emotion and delivery

Accede a más de 10.000 voces

Descubre una colección en constante crecimiento de voces realistas y expresivas para cualquier uso.
10,000+ voices

Diseño y clonación de voces

Crea en más de 30 idiomas con voces naturales, acentos expresivos y audio adaptado a tu audiencia.
Voice design and cloning

Diálogo multivoces

Crea conversaciones naturales entre varios hablantes en más de 30 idiomas con voces expresivas y controlables.
Multi-speaker dialogue

Eventos y dirección de audio

Controla la entonación con etiquetas de audio, señales de tiempo y dirección narrativa integradas en la voz.
Audio events and direction

Diccionarios de pronunciación

Define pronunciaciones personalizadas para asegurar una voz precisa y coherente en nombres y términos.
Pronunciation dictionary

Impulsamos a las principales empresas y marcas del mundo

  • Desde doblar Reels en idiomas locales hasta generar música y voces de personajes en Horizon, la plataforma de ElevenLabs permite a creadores, empresas y organizaciones crear con voz, música y sonido a gran escala.
    Meta Color Logo
  • Millones de personas aprenden ajedrez cada día con creadores como Hikaru, Levy y Magnus en YouTube y Twitch. Ahora puedes aprender de ellos dentro de Chess.com de una forma inmersiva, personal y llena de carácter. Nuestra misión es crear un entrenador de ajedrez que enseñe al nivel adecuado, dé la bienvenida a jugadores de todos los niveles y desmitifique el ajedrez manteniéndolo divertido y con personalidad. Con ElevenLabs y estas nuevas voces increíbles, hemos dado un gran paso para hacer realidad esa visión.
    Chess.com logo
  • ElevenLabs nos permitió añadir rápidamente capacidades de texto a voz potentes a nuestro SDK, para que los agentes puedan responder en tiempo real con voces expresivas a las preguntas de los usuarios o como feedback de lo que ven.
    Stream Color Logo
  • Twilio ha integrado la tecnología de voz IA generativa de ElevenLabs en su CPaaS, mejorando ConversationRelay. Esta integración permite a empresas y desarrolladores crear interacciones de voz con IA conversacional que suenan humanas, son expresivas y responden en tiempo real directamente desde la plataforma CPaaS de Twilio. En ElevenLabs nos entusiasma que Twilio haya elegido ElevenLabs para potenciar ConversationRelay con las voces más expresivas y realistas disponibles.
    Twilio logo

APIs listas para producción

Foreground

Preguntas frecuentes

Últimas novedades

La plataforma de audio IA más realista