
Przedstawiamy Eleven Turbo v2.5
Wysoka jakość, niska latencja zamiany tekstu na mowę w 32 językach
Porównujemy dwa nowe produkty, żeby pomóc ci wybrać najlepszy do twoich potrzeb
Aktualizacja: 18 października 2024
W ostatnim miesiącu pojawiły się dwa ważne produkty w świecie Conversational AI – nasza platforma do zarządzania Conversational AI i OpenAI RealtimeAPI. Przygotowaliśmy ten wpis, żeby łatwiej było ci odróżnić te produkty i wybrać ten, który lepiej się sprawdzi.
Oba produkty pomagają tworzyć agentów głosowych działających w czasie rzeczywistym,agentów głosowych do rozmów. ElevenLabs Conversational AI umożliwia to dzięki platformie, która zamienia mowę na tekst (Speech to Text), przesyła transkrypcję do wybranego LLM razem z twoją bazą wiedzy, a potem odtwarza odpowiedź LLM za pomocą Text to Speech. To rozwiązanie end-to-end z monitoringiem i analizą rozmów, a wkrótce także z narzędziami do testowania i integracją z telefonią.
| Feature | ElevenLabs Conv AI | OpenAI Realtime |
|---|---|---|
| Total Number of Voices | 3k+ | 6 |
| LLMs Supported | Bring your own server or choose from any leading provider | OpenAI models only |
| Call tracking and analytics | Yes, built-in dashboard | No, must build using API |
| Latency | 1-3 seconds depending on network latency and size of knowledge base | Likely faster due to no transcription step |
| Price | 8.8 cents per minute on business, with discounts for high volume (+LLM cost) | ~15 cents per minute (6 cents per minute input, 24 cents per minute output) |
| Voice Cloning | Yes, bring your own voice with a PVC | No voice cloning |
| API Access | Yes, all plans | Yes, all plans |
Gdy nasze Conversational AI zamienia mowę na tekst, część informacji znika – na przykład emocje, ton czy wymowa. OpenAI Realtime API działa bezpośrednio na mowie, więc nie traci kontekstu. To sprawia, że lepiej sprawdzi się np. do nauki wymowy w nowym języku albo rozpoznawania emocji w terapii.
Korzystając z Realtime API, używasz całej infrastruktury OpenAI. Nie da się podłączyć innego LLM ani własnego modelu, bo Realtime API przyjmuje tylko dźwięk i zwraca dźwięk.
W naszej platformie Conversational AI możesz w każdej chwili zmienić LLM, który napędza twojego agenta (w tym na modele OpenAI). Gdy Anthropic, OpenAI, Google, NVIDIA i inni wprowadzają coraz lepsze modele, możesz je aktualizować i zawsze korzystać z najnowszych rozwiązań.
Firmy, które mają własny, dostrojony LLM (np. ze względu na wydajność lub prywatność), mogą go zintegrować z ElevenLabs Conversational AI, ale nie z OpenAI Realtime API.
Przy ocenie modelu pod kątem opóźnień liczą się dwa czynniki:
(1) Czy średnie opóźnienie jest na tyle niskie, żeby rozmowa była płynna?
(2) Jak bardzo opóźnienie się zmienia i jak wygląda doświadczenie użytkownika przy P90 i P99?
Zaletą OpenAI Realtime API jest to, że pomija etap zamiany mowy na tekst, więc opóźnienie może być niższe.
Minusem jest mniejsza elastyczność. W naszych testach przez kilka tygodni 40-mini miał najniższe opóźnienia z naszą platformą Conversational AI. W tym tygodniu opóźnienie się podwoiło, więc użytkownicy przeszli na Gemini Flash 1.5. W Realtime API nie da się przełączyć na szybszy LLM.
Pamiętaj też, że końcowe opóźnienie w twojej aplikacji Conversational AI zależy nie tylko od dostawcy, ale też od wielkości bazy wiedzy agenta i warunków sieciowych.
OpenAI Realtime API ma obecnie 6 głosów. Nasza biblioteka to ponad 3 000 głosów. Możesz też użyć Professional Voice Cloning, żeby dodać własny głos. W Realtime API nie wybierzesz głosu pasującego do twojej marki czy treści.
W Realtime API wejście audio kosztuje 100$ za 1 mln tokenów, a wyjście 200$ za 1 mln tokenów. To ok. 0,06$ za minutę wejścia i 0,24$ za minutę wyjścia.
ElevenLabs Conversational AI daje 15 minut na start w darmowym planie. Plan Business to 13 750 minut Conversational AI (0,08$ za minutę), kolejne minuty też po 0,08$, a przy większych ilościach ceny są jeszcze niższe.
Po każdej rozmowie Realtime API wysyła zdarzenia w formacie JSON z tekstem i fragmentami audio – transkrypcją, nagraniem i informacjami o wykonanych akcjach. Sam musisz je odczytać, przetworzyć i pokazać zespołowi w przydatnej formie.
Nasza platforma ma wbudowane narzędzia do oceny rozmów, wyciągania danych i prezentowania ich razem z transkrypcją, podsumowaniem i nagraniem w naszym panelu – wszystko do wglądu twojego zespołu.

Wysoka jakość, niska latencja zamiany tekstu na mowę w 32 językach

Reducing time to ticket resolution by 8x with multilingual conversational agents.