Question 1

Quel modèle Text to Speech dois-je utiliser ?

Accepted Answer

- Flash v2.5 - Ultra-faible latence (~75ms) pour les applications temps réel comme les agents vocaux
- Turbo v2.5 - Équilibre entre qualité et rapidité (~250-300ms) pour les usages interactifs
- Multilingual v2 - Qualité constante pour les contenus longs jusqu’à 10 000 caractères
- Eleven v3 - Expressivité et émotions maximales pour les usages créatifs

Question 2

Quelle latence puis-je attendre ?

Accepted Answer

Flash v2.5 offre une latence d’environ 75ms.
Turbo v2.5 répond généralement en 250-300ms.
Les deux prennent en charge le streaming, ce qui permet de commencer la lecture avant la fin de la génération.

Question 3

Combien de langues sont prises en charge ?

Accepted Answer

Eleven v3 prend en charge plus de 70 langues.
Flash v2.5 et Turbo v2.5 prennent en charge 32 langues.
Multilingual v2 prend en charge plus de 70 langues.

Question 4

Quelles sont les limites de caractères par requête ?

Accepted Answer

Flash v2.5 et Turbo v2.5 : 40 000 caractères
Multilingual v2 : 10 000 caractères
Eleven v3 : 3 000 caractères

Question 5

Puis-je contrôler l’émotion et l’intonation ?

Accepted Answer

Utilisez des balises audio ([laughs], [whispers], [sighs], [door slam]) pour contrôler l’intonation, l’émotion, l’emphase, les pauses et les effets sonores. Eleven v3 offre le contrôle le plus expressif.

Question 6

Combien de voix sont disponibles ?

Accepted Answer

La Voice Library propose plus de 10 000 voix. Vous pouvez aussi cloner ou créer des voix personnalisées à partir de prompts textuels.

Question 7

L’API prend-elle en charge le streaming ?

Accepted Answer

Oui. Le streaming permet de lancer la lecture avant que l’audio complet ne soit généré, ce qui réduit la latence perçue dans les applications temps réel.

Question 8

Puis-je utiliser des voix personnalisées ?

Accepted Answer

Oui. Référencez n’importe quelle voix de votre bibliothèque via son ID, y compris les clones professionnels, les clones instantanés et les voix que vous avez créées.

Question 9

Quels formats audio sont pris en charge ?

Accepted Answer

L’API génère par défaut du MP3. Les autres formats disponibles sont PCM et μ-law.

Question 10

Comment optimiser la latence ?

Accepted Answer

Utilisez Flash v2.5 avec le streaming activé. Gardez les requêtes sous 1 000 caractères. Activez les connexions WebSocket pour les applications temps réel persistantes.

Question 11

La prononciation est-elle personnalisable ?

Accepted Answer

Oui. Utilisez l’orthographe phonétique ou les dictionnaires de prononciation pour contrôler la façon dont certains mots sont prononcés.

Question 12

Quels SDK sont disponibles ?

Accepted Answer

Des SDK officiels pour Python et JavaScript/TypeScript sont disponibles. Vous pouvez aussi utiliser l’API HTTP.

Question 13

Où trouver des exemples de code ?

Accepted Answer

Le guide complet de l’API, des exemples de code et des guides d’intégration sont disponibles sur www.11labs.ru/docs/api-reference

Question 14

Proposez-vous un support entreprise ?

Accepted Answer

Oui. Les offres entreprise incluent la conformité SOC 2, le support HIPAA, la conformité RGPD, la résidence des données UE, le mode sans conservation, un support dédié et des SLA personnalisés.

API Text to Speech

Génération vocale ultra-réaliste et à faible latence

Basé sur les modèles de voix IA les plus puissants

Flash v2.5

Turbo v2.5

Multilingue v2

Eleven v3

Tout ce qu’il vous faut pour créer une voix prête à l’emploi

Contrôlez l’émotion et l’intonation

Accédez à plus de 10 000 voix

Création et clonage de voix

Dialogue multi-intervenants

Événements audio et direction

Dictionnaires de prononciation

Au service des plus grandes entreprises et marques mondiales

Des API conçues pour la production

Protection des données de niveau entreprise

SDK Python et TypeScript

Support avancé et déploiements personnalisés

Questions fréquentes