
Revolut selects ElevenLabs Agents to bolster customer support
Reducing time to ticket resolution by 8x with multilingual conversational agents.
Najbardziej ekspresyjny model Text to Speech
Z radością pokazujemy Eleven v3 (alpha) —najbardziej ekspresyjny model Text to Speech.
Ta wersja testowa daje niespotykaną kontrolę i realizm w generowaniu mowy dzięki:
Eleven v3 (alpha) wymaga więcej prompt engineeringu niż wcześniejsze modele — ale efekty są zachwycające.
Jeśli tworzysz wideo, audiobooki lub narzędzia medialne — to otwiera nowy poziom ekspresji. Do zastosowań na żywo i rozmów polecamy na razie v2.5 Turbo lub Flash. Wersja v3 do pracy na żywo jest w przygotowaniu.
Eleven v3 jest już dostępny na naszej stronie i w API.
Od premiery Multilingual v2 widzimy, jak głos AI trafia do filmów, gier, edukacji i dostępności. Ale największym ograniczeniem nie była jakość dźwięku — tylko ekspresja. Silniejsze emocje, przerywanie rozmowy czy naturalne dialogi były trudne do uzyskania.
Eleven v3 rozwiązuje ten problem. Od podstaw stworzyliśmy model, który wzdycha, szepcze, śmieje się i reaguje — dzięki temu mowa brzmi naprawdę żywo i naturalnie.
| Feature | What it unlocks |
|---|---|
| Audio tags | Inline control of tone, emotion, and non-verbal reactions |
| Dialogue mode | Multi-speaker conversations with natural pacing and interruptions |
| 70+ languages | Full coverage of high-demand global languages |
| Deeper text understanding | Better stress, cadence, and expressivity from text input |
Tagi audio wpisujesz bezpośrednio w tekst, w nawiasach kwadratowych małymi literami. Więcej o tagach audio znajdziesz w naszym przewodniku po promptowaniu v3 w dokumentacji.
Profesjonalne klony głosów (PVC) nie są jeszcze w pełni zoptymalizowane pod Eleven v3, więc ich jakość może być niższa niż w poprzednich modelach. Na tym etapie najlepiej wybrać Instant Voice Clone (IVC) lub zaprojektowany głos, jeśli chcesz korzystać z funkcji v3. Optymalizacja PVC dla v3 pojawi się wkrótce.
Na przykład możesz wpisać: „[whispers] Coś nadchodzi… [sighs] Czuję to.” A jeśli chcesz większej kontroli, możesz łączyć różne tagi:
| 1 | “[happily][shouts] We did it! [laughs].” |
Eleven v3 działa w naszym obecnym endpointcie Text to Speech. Dodatkowo wprowadzamy nowy endpoint Text to Dialogue API. Wystarczy podać uporządkowaną tablicę obiektów JSON — każdy to jedna wypowiedź — a model wygeneruje spójny, nakładający się plik audio:
| 1 | [ |
| 2 | {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."}, |
| 3 | {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."}, |
| 4 | {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"} |
| 5 | ] |
| 6 |
Endpoint sam zarządza zmianami głosów, emocji i przerwami w rozmowie.
Dowiedz się więcej tutaj.
| Plan | Launch promo | At the end of June |
|---|---|---|
| UI (self-serve) | 80% off (~5× cheaper) | Same as Multilingual V2 |
| UI (enterprise) | 80% off business plan pricing | Business plan pricing |
Aby włączyć v3:
Dostęp przez API i wsparcie w Studio pojawią się wkrótce. Jeśli chcesz wcześniejszy dostęp, skontaktuj się z nami.
Eleven v3 (alpha) wymaga więcej prompt engineeringu niż nasze wcześniejsze modele. Efekty są świetne, ale mniejsza przewidywalność i większe opóźnienia sprawiają, że nie nadaje się do rozmów na żywo. Do tego polecamy Eleven v2.5 Turbo/Flash.
Więcej znajdziesz w pełnej dokumentacji v3 i FAQ.
Nie możemy się doczekać, jak wykorzystasz v3 w nowych projektach — od opowieści po produkcje filmowe.

Reducing time to ticket resolution by 8x with multilingual conversational agents.
.webp&w=3840&q=95)
Yampa leverages ElevenLabs Flash V2.5 to scale human-like outbound voice agents with ultra-low latency and massive concurrency.