AI 音声合成は、テキストを表現力のある音声に変換するツールです。xAI、ElevenLabs、MiniMax、Inworld、アリババ Qwen3(音声クローン対応)、Nari Labs の Dia など、本番運用レベルの 11 モデルを切り替えて使えます。最終的な仕上がりはモデル選択でほぼ決まります。各モデルは独自の声質ライブラリ、対応言語、文字数上限、1,000 文字あたりの料金を持ち、最初に違いを感じるのは多くの場合アクセントよりイントネーションです。
モデルの選び方
汎用音声モデル
- xAI TTS — 6 種の声、20+ 言語、
<pause>/<emphasis>などのインラインタグ対応 - ElevenLabs v3 — スタジオ品質のプロソディ、テキスト内の音声タグ、70+ 言語、3,000 文字/回
- ElevenLabs Multilingual v2 — 29 言語の主力モデル、最大 10,000 文字/回
- ElevenLabs Flash / Turbo v2.5 — サブ秒レイテンシでチャットボット向き、32 言語、最大 40,000 文字/回
- Inworld Max / Mini — 名前付きの 75 声。Mini は安価で高速
特化モデル
- MiniMax Speech 2.8 — 300+ の声、言語ブースト設定で出力言語を強く誘導
- Qwen3 CustomVoice — Alibaba 提供の 9 種プリセット声、スタイル制御あり
- Qwen3 Base — 3 秒のサンプルから声をクローン
- Dia 1.6B — 英語の多話者対話、
[laugh]、[sigh]、話者タグ対応
Qwen3 Base で声をクローンする
Qwen3 Base には 3〜30 秒のリファレンス音声が必要です。動作モードは 2 種類あります。
ICL モード(書き起こしあり)
音声クリップとそこで話されている内容の正確な書き起こしを両方渡す方法です。類似度が高く、プロソディも自然になります。元音声がクリーンで台本が手元にある本番制作向きです。
x-vector モード(音声のみ)
書き起こし欄を空のまま送信します。話者埋め込みのみを利用するため設定は手早く済みますが、クローン精度は下がり、長い出力ではブレやすくなります。試作用途に向きます。
ElevenLabs に声の選択肢が出ない理由
このカタログの ElevenLabs モデルはモデル既定の声を使います。声 ID パラメータはこのプロバイダでは公開されていません。仕上がりの調整は「Advanced」内の 4 つのスライダーで行います。
- Stability — 低いほど感情の起伏が大きく毎回の差も大きくなります。高いほど安定した一本調子のナレーションになります
- Similarity — 元の声にどれだけ忠実に近づけるかの度合いです。Multilingual v2 で長文中に声がブレるときに上げます
- Style — 元の声特有のスタイルを誇張します。値が高いほどレイテンシが伸びます
- Speaker boost — わずかな明瞭度向上と引き換えに少しレイテンシが増えます(Flash・Turbo では公開されません)
押さえておきたいインラインタグ
xAI TTS と Dia はテキスト内のインラインタグを解釈します。ElevenLabs v3 はより豊富な音声タグに対応します。代表例:
[Captain] (laughs) Tell me that was the last drone.
[Navigator] Last drone? No. Last polite warning? Absolutely.
Welcome to the observatory. <pause time="600ms"/> The comet streaks across the sky like a silver flame, <emphasis level="strong">brilliant</emphasis> and brief.
課金の決まり方
このカタログの TTS モデルはすべて入力文字数(1,000 文字単位)で課金します。モデル選択画面の値札がそのレートで、合計コストは text.length に対して線形に増えます。実用上のポイント:
- ElevenLabs Flash に 20,000 文字の章をまるごと貼り付けると、1 行の字幕の約 20 倍のコストになります
- クレジットの仮押さえは送信した文字数に応じて見積もられ、最終決済はプロバイダの実請求額に合わせて精算されます
- Dia の表示価格は本番運用相場です。本カタログでは Qwen3 と同程度のレートで請求されます
出力フォーマットとダウンロード
各結果のダウンロードボタンは選択した形式(MP3 / WAV / FLAC / OGG)に従い、ファイル名にも対応する拡張子が付きます。履歴側も生成時の形式を保持しているため、後から旧クリップを再ダウンロードしても拡張子が静かに変わることはありません。