Question 1

Welches Text-zu-Sprache-Modell sollte ich verwenden?

Accepted Answer

- Flash v2.5 – Extrem niedrige Latenz (~75 ms) für Echtzeitanwendungen wie Sprachagenten
- Turbo v2.5 – Ausgewogene Qualität und Geschwindigkeit (~250–300 ms) für interaktive Anwendungen
- Multilingual v2 – Gleichbleibende Qualität für lange Inhalte bis zu 10.000 Zeichen
- Eleven v3 – Maximale Ausdrucksstärke und emotionale Bandbreite für kreative Anwendungen

Question 2

Mit welcher Latenz kann ich rechnen?

Accepted Answer

Flash v2.5 erreicht ca. 75 ms Latenz.
Turbo v2.5 antwortet typischerweise in 250–300 ms.
Beide unterstützen Streaming-Ausgabe, sodass die Wiedergabe vor Abschluss der Generierung beginnen kann.

Question 3

Wie viele Sprachen werden unterstützt?

Accepted Answer

Eleven v3 unterstützt über 70 Sprachen.
Flash v2.5 und Turbo v2.5 unterstützen 32 Sprachen.
Multilingual v2 unterstützt über 70 Sprachen.

Question 4

Wie hoch sind die Zeichenlimits pro Anfrage?

Accepted Answer

Flash v2.5 und Turbo v2.5: 40.000 Zeichen
Multilingual v2: 10.000 Zeichen
Eleven v3: 3.000 Zeichen

Question 5

Kann ich Emotion und Vortrag steuern?

Accepted Answer

Nutzen Sie Audio-Tags ([lacht], [flüstert], [seufzt], [Tür schlägt]) zur Steuerung von Vortrag, Emotion, Betonung, Pausen und Soundeffekten. Eleven v3 bietet die größte Ausdruckskontrolle.

Question 6

Wie viele Stimmen sind verfügbar?

Accepted Answer

Die Stimmbibliothek umfasst über 10.000 Stimmen. Sie können auch Stimmen klonen oder eigene Stimmen mit Text-Prompts gestalten.

Question 7

Unterstützt die API Streaming?

Accepted Answer

Ja. Mit Streaming können Sie die Wiedergabe starten, bevor das gesamte Audio generiert ist. Das reduziert die wahrgenommene Latenz in Echtzeitanwendungen.

Question 8

Kann ich eigene Stimmen verwenden?

Accepted Answer

Ja. Sie können jede Stimme in Ihrer Bibliothek per Voice-ID referenzieren – einschließlich professioneller Stimmklone, Instant-Klone und selbst gestalteter Stimmen.

Question 9

Welche Audioformate werden unterstützt?

Accepted Answer

Die API liefert standardmäßig MP3 aus. Weitere Formate sind PCM und μ-law.

Question 10

Wie optimiere ich für geringe Latenz?

Accepted Answer

Nutzen Sie Flash v2.5 mit aktiviertem Streaming. Halten Sie Anfragen unter 1.000 Zeichen. Aktivieren Sie WebSocket-Verbindungen für dauerhafte Echtzeitanwendungen.

Question 11

Ist die Aussprache anpassbar?

Accepted Answer

Ja. Nutzen Sie phonetische Schreibweise oder Aussprachewörterbücher, um die Aussprache bestimmter Wörter zu steuern.

Question 12

Welche SDKs sind verfügbar?

Accepted Answer

Offizielle SDKs für Python und JavaScript/TypeScript sind verfügbar. Sie können auch die HTTP-API nutzen.

Question 13

Wo finde ich Codebeispiele?

Accepted Answer

Vollständige API-Referenz, Codebeispiele und Integrationsanleitungen finden Sie unter www.11labs.ru/docs/api-reference

Question 14

Bieten Sie Enterprise-Support an?

Accepted Answer

Ja. Enterprise-Pläne beinhalten SOC 2-Konformität, HIPAA-Unterstützung, DSGVO-Konformität, EU-Datenresidenz, Zero-Retention-Modus, dedizierten Support und individuelle SLAs.

Text zu Sprache API

Ultrarealistische und latenzarme Spracherzeugung

Basierend auf den leistungsstärksten Voice-KI-Modellen

Flash v2.5

Turbo v2.5

Mehrsprachig v2

Eleven v3

Alles, was Sie für produktionsreife Sprachlösungen brauchen

Emotion und Vortrag steuern

Zugriff auf 10.000+ Stimmen

Stimmendesign & Klonen

Dialoge mit mehreren Sprechern

Audio-Events und Steuerung

Aussprachewörterbücher

Im Einsatz bei führenden Unternehmen und Marken weltweit

APIs für den produktiven Einsatz

Datenschutz auf Enterprise-Niveau

Python- und TypeScript-SDKs

Erweiterter Support und individuelle Bereitstellungen

Häufig gestellte Fragen