Eleven v3オーディオタグとは？その重要性について

最終更新日 2026年1月21日 • 3 分で読めます

A man with glasses and a beard looking to the side in a room with bookshelves.

Ryan Morrison, Growth

ElevenLabsのオーディオタグでAI音声の感情、話し方、サウンドエフェクトをコントロールできます。

Eleven v3

リリースされたEleven v3によって、オーディオプロンプトが必須スキルになりました。AI音声に話してほしい言葉を入力するだけでなく、新たな機能であるオーディオタグを使って、感情から話し方まで自在にコントロールできます。

Eleven v3はアルファ版のリサーチプレビューとなる新モデルです。従来モデルよりもプロンプトエンジニアリングが必要ですが、その生成結果は圧倒的です。

ElevenLabsオーディオタグは、角括弧で囲んだ単語で、新しいEleven v3モデルが解釈し、音声表現を指示できます。[excited]、[whispers]、[sighs]から、[gunshot]、[clapping]、[explosion]まで、さまざまなタグが使えます。

オーディオタグを使えば、AI音声のトーンや間、話し方など、非言語的なニュアンスまで調整できます。オーディオブックやインタラクティブなキャラクター、会話型メディアなど、感情や表現を細かくコントロールしたい場面で役立つシンプルなスクリプト用ツールです。

オーディオタグでパフォーマンスを指示

オーディオタグはスクリプトのどこにでも挿入でき、リアルタイムで話し方を調整できます。タグを組み合わせて使うことも、1文の中で複数使うことも可能です。タグは主に以下のカテゴリに分かれます：

感情

これらのタグで声の感情的なトーンを設定できます。たとえば、[sad]、[angry]、[happily]、[sorrowful]などを単独または組み合わせて使えます。

話し方の指示

こちらはトーンやパフォーマンスの調整に使います。ボリュームやエネルギーを変えて、抑えたい場面や強調したい場面に合わせられます。例：[whispers]、[shouts]、[x accent]など。

人間らしい反応

自然な会話にはリアクションが欠かせません。たとえば、[laughs]、[clears throat]、[sighs]などを挿入して、リアルな自然な瞬間を演出できます。

より表現力豊かなモデルをベースに

これらの機能の背景には、v3の新しいアーキテクチャがあります。モデルがテキストの文脈をより深く理解できるため、感情の変化やトーンの切り替え、話者の交代も自然に表現できます。オーディオタグと組み合わせることで、従来のTTSでは難しかった表現力が実現します。

さらに、複数話者のダイアログも自然に作成可能です。割り込みやムードの変化、会話のニュアンスも最小限のプロンプトで表現できます。

現在利用可能

プロフェッショナルボイスクローン（PVC）は現時点ではEleven v3に最適化されていないため、従来モデルよりクローン品質が下がる場合があります。v3の機能を使いたい場合は、リサーチプレビュー期間中はインスタントボイスクローン（IVC）やデザインボイスの利用をおすすめします。PVCのv3最適化は今後予定されています。

Eleven v3はElevenLabsのUIで利用でき、6月末まで80％オフでご提供中です。Eleven v3（アルファ）のパブリックAPIも利用可能です。試してみたい方も、大規模導入を検討中の方も、今が新しい可能性を探るチャンスです。

オーディオタグの作り方

AI音声を「読む」だけでなく「演じる」ためには、オーディオタグの使いこなしがカギです。タグの使い方をわかりやすく解説した7つのガイドを用意しました。たとえば、[WHISPER], [LAUGHS SOFTLY]や、[French accent]などのタグで、文脈や感情、話し方、複数キャラクターの会話まで、1つのモデルで自在に表現できます。

シリーズをチェック

状況認識 – たとえば、[WHISPER], [SHOUTING]、[SIGH]などのタグで、その場の雰囲気に合わせて緊張感を高めたり、警告を和らげたり、サスペンスのために間を取ったりできます。
キャラクターパフォーマンス – [pirate voice]から、[French accent]まで、タグを使えばナレーションがロールプレイに変わります。途中でキャラクターを切り替えたり、モデルを変えずに本格的な演技も可能です。
感情の文脈 – [sigh], [excited]や、[tired]などのキューで、その瞬間ごとの感情を表現し、緊張や安心、ユーモアを重ねられます。録り直しは不要です。
ナラティブインテリジェンス – 物語はタイミングが大切。たとえば、[pause], [awe]や、[dramatic tone]などのタグでリズムや強調を調整し、AI音声がリスナーを物語の流れに導きます。
複数キャラクターの会話 – [interrupting], [overlapping]やトーンの切り替えで、重なり合うセリフやテンポの良い掛け合いも表現できます。1つのモデルで多彩な声を使い分け、自然な会話を実現します。
話し方のコントロール – 間や強調を細かく調整。たとえば、[pause], [rushed]や、[drawn out]などのタグでテンポを自在に操り、テキストをパフォーマンスに変えます。
アクセントの再現 – 地域ごとのアクセントも即座に切り替え可能—[American accent], [British accent], [Southern US accent]など、多様な文化的ニュアンスをモデルを変えずに表現できます。

ElevenLabsチームによる記事をもっと見る

リソース

リソース

Eleven v3 オーディオタグ: AIオーディオに状況認識を

Eleven v3 オーディオタグでAI音声を強化。トーン、感情、テンポをコントロールし、自然な会話を実現。テキスト読み上げに状況認識を追加。

Agents Platform Stories

Agents Platform Stories

Revolut selects ElevenLabs Agents to bolster customer support

Reducing time to ticket resolution by 8x with multilingual conversational agents.

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか？ログイン