Pomiń

Przedstawiamy Eleven v3 (alpha)

Najbardziej ekspresyjny model Text to Speech

v3

Z radością pokazujemy Eleven v3 (alpha) —najbardziej ekspresyjny model Text to Speech.

Ta wersja testowa daje niespotykaną kontrolę i realizm w generowaniu mowy dzięki:

  • 70+ językom
  • Dialogom z wieloma głosami
  • Tagom audio takim jak [excited], [whispers] i [sighs]

Eleven v3 (alpha) wymaga więcej prompt engineeringu niż wcześniejsze modele — ale efekty są zachwycające.

Jeśli tworzysz wideo, audiobooki lub narzędzia medialne — to otwiera nowy poziom ekspresji. Do zastosowań na żywo i rozmów polecamy na razie v2.5 Turbo lub Flash. Wersja v3 do pracy na żywo jest w przygotowaniu.

Eleven v3 jest już dostępny na naszej stronie i w API.

Dlaczego stworzyliśmy v3

Od premiery Multilingual v2 widzimy, jak głos AI trafia do filmów, gier, edukacji i dostępności. Ale największym ograniczeniem nie była jakość dźwięku — tylko ekspresja. Silniejsze emocje, przerywanie rozmowy czy naturalne dialogi były trudne do uzyskania.

Eleven v3 rozwiązuje ten problem. Od podstaw stworzyliśmy model, który wzdycha, szepcze, śmieje się i reaguje — dzięki temu mowa brzmi naprawdę żywo i naturalnie.

Co nowego w Eleven v3 (alpha)

Feature What it unlocks
Audio tags Inline control of tone, emotion, and non-verbal reactions
Dialogue mode Multi-speaker conversations with natural pacing and interruptions
70+ languages Full coverage of high-demand global languages
Deeper text understanding Better stress, cadence, and expressivity from text input

Hear v3 for yourself

Background
Background

Jak używać tagów audio

Tagi audio wpisujesz bezpośrednio w tekst, w nawiasach kwadratowych małymi literami. Więcej o tagach audio znajdziesz w naszym przewodniku po promptowaniu v3 w dokumentacji.

Profesjonalne klony głosów (PVC) nie są jeszcze w pełni zoptymalizowane pod Eleven v3, więc ich jakość może być niższa niż w poprzednich modelach. Na tym etapie najlepiej wybrać Instant Voice Clone (IVC) lub zaprojektowany głos, jeśli chcesz korzystać z funkcji v3. Optymalizacja PVC dla v3 pojawi się wkrótce.

Na przykład możesz wpisać: „[whispers] Coś nadchodzi… [sighs] Czuję to.” A jeśli chcesz większej kontroli, możesz łączyć różne tagi:

1[happily][shouts] We did it! [laughs].

Tworzenie dialogów z wieloma głosami

Eleven v3 działa w naszym obecnym endpointcie Text to Speech. Dodatkowo wprowadzamy nowy endpoint Text to Dialogue API. Wystarczy podać uporządkowaną tablicę obiektów JSON — każdy to jedna wypowiedź — a model wygeneruje spójny, nakładający się plik audio:

1[
2 {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."},
3 {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."},
4 {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"}
5]
6

Endpoint sam zarządza zmianami głosów, emocji i przerwami w rozmowie.

Dowiedz się więcej tutaj.

v3 is our most expressive model

Background
Background

Ceny i dostępność

Plan Launch promo At the end of June
UI (self-serve) 80% off (~5× cheaper) Same as Multilingual V2
UI (enterprise) 80% off business plan pricing Business plan pricing

Aby włączyć v3:

  • Użyj Model Picker i wybierz Eleven v3 (alpha)

Dostęp przez API i wsparcie w Studio pojawią się wkrótce. Jeśli chcesz wcześniejszy dostęp, skontaktuj się z nami.

Kiedy nie używać v3

Eleven v3 (alpha) wymaga więcej prompt engineeringu niż nasze wcześniejsze modele. Efekty są świetne, ale mniejsza przewidywalność i większe opóźnienia sprawiają, że nie nadaje się do rozmów na żywo. Do tego polecamy Eleven v2.5 Turbo/Flash.

Więcej znajdziesz w pełnej dokumentacji v3 i FAQ.

Try it today

Background
Background
  1. Zaloguj się do ElevenLabs UI
  2. Wybierz v3 (alpha) z listy modeli
  3. Wklej swój tekst — użyj tagów lub dialogu
  4. Wygeneruj audio

Nie możemy się doczekać, jak wykorzystasz v3 w nowych projektach — od opowieści po produkcje filmowe.

ElevenLabs

Twórz z najwyższą jakością dźwięku AI