
Eleven Turbo v2.5のご紹介
32言語で高品質・低遅延のテキスト読み上げ
2024年10月18日現在の情報です
先月、会話型AIの分野で2つの大きなプロダクトがリリースされました。それが、私たちの会話型AIオーケストレーションプラットフォームとOpenAIのRealtimeAPIです。この投稿では、2つの違いを分かりやすくまとめ、用途に合った最適な選択ができるようにご案内します。
どちらのプロダクトも、リアルタイムで会話型音声エージェント. ElevenLabs会話型AIは、スピーチtoテキストで音声から文字起こしを作成し、そのテキストをお好みのLLMとカスタムナレッジベースに送信、さらにLLMの返答をテキスト読み上げで音声化するオーケストレーションプラットフォームを通じて実現します。通話履歴のモニタリングや分析も含むエンドツーエンドのソリューションで、今後はテストフレームワークや電話連携機能も追加予定です。
| Feature | ElevenLabs Conv AI | OpenAI Realtime |
|---|---|---|
| Total Number of Voices | 3k+ | 6 |
| LLMs Supported | Bring your own server or choose from any leading provider | OpenAI models only |
| Call tracking and analytics | Yes, built-in dashboard | No, must build using API |
| Latency | 1-3 seconds depending on network latency and size of knowledge base | Likely faster due to no transcription step |
| Price | 8.8 cents per minute on business, with discounts for high volume (+LLM cost) | ~15 cents per minute (6 cents per minute input, 24 cents per minute output) |
| Voice Cloning | Yes, bring your own voice with a PVC | No voice cloning |
| API Access | Yes, all plans | Yes, all plans |
会話型AIが音声をテキストに変換する際、感情やトーン、発音など一部の情報が失われます。一方、OpenAIのRealtime APIは音声から音声へ直接変換するため、こうした文脈が失われません。そのため、新しい言語の発音矯正や、セラピーでの感情認識・対応など、特定の用途により適しています。
Realtime APIを使う場合、会話体験全体をOpenAIのインフラで提供します。他社のLLMを組み込んだり、自社のLLMを使うことはできません。Realtime APIは音声のみを入力・出力とするためです。
ElevenLabsの会話型AIプラットフォームなら、モデルに使うLLMをいつでも変更できます(OpenAIのモデルも利用可能)。Anthropic、OpenAI、Google、NVIDIAなどが高性能LLMを競い合う中、常に最新技術を使えるよう、いつでもアップデートできます。
また、自社で独自にチューニングしたLLMをお持ちの企業も、ElevenLabsの会話型AIプラットフォームなら連携可能ですが、OpenAIのRealtime APIではできません。
どのモデルでもレイテンシーを評価する際は、2つの重要なポイントがあります。
(1)平均レイテンシーが十分低く、シームレスなユーザー体験を実現できるか?
(2)レイテンシーのばらつきはどの程度か、P90やP99のレイテンシーでユーザー体験はどうなるか?
OpenAI Realtime APIのメリットの1つは、音声をテキストに変換する中間ステップがないため、全体のレイテンシーが低くなる可能性が高い点です。
一方で、先ほど触れた柔軟性の面でデメリットもあります。ここ数週間のテストでは、当初40-miniが会話型AIプラットフォームと組み合わせた際に最も低レイテンシーでしたが、今週はレイテンシーが2倍以上になり、ユーザーはGemini Flash 1.5に切り替えました。Realtime APIでは、より速いLLMに切り替えることができません。
また、会話型AIアプリ全体のエンドツーエンドのレイテンシーは、プロバイダーだけでなく、エージェントのナレッジベースの規模やネットワーク環境にも左右されます。
OpenAIのRealtime APIは現在6種類の音声が選べます。私たちのボイスライブラリには3,000以上の音声があり、プロフェッショナルボイスクローンを使えば独自のカスタム音声も利用可能です。つまり、Realtime APIではブランドやコンテンツに合わせた独自の音声は選べません。
Realtime APIでは、音声入力が100ドル/100万トークン、出力が200ドル/100万トークンです。これは音声入力1分あたり約0.06ドル、出力1分あたり約0.24ドルに相当します。
ElevenLabs会話型AIは、無料プランで15分間お試しいただけます。ビジネスプランでは13,750分(1分あたり0.08ドル)が含まれ、追加分も0.08ドル/分で利用可能。大量利用時はさらに割引価格が適用されます。
各通話終了時、Realtime APIはテキストや音声チャンク(文字起こし・録音・機能呼び出しなど)を含むJSON形式のイベントを送信します。これらの情報を読み取り、処理し、レポートや表示を行うのはユーザー側の役割です。
私たちのプラットフォームには、通話の成功評価や構造化データの抽出、文字起こし・要約・録音とともにダッシュボードで表示する機能が標準搭載されており、チームで簡単に確認できます。

32言語で高品質・低遅延のテキスト読み上げ

Reducing time to ticket resolution by 8x with multilingual conversational agents.