テキスト読み上げツールは、文章を自然な音声に変換します。9 言語・複数の音声キャラクターに対応しており、最大 10,000 文字を入力して MP3、WAV、FLAC、AAC、OGG、Opus 形式でダウンロードできます。
生成前に音声をプレビューする
各音声にはプレビューボタンがあり、約 3 秒のサンプルをクレジットを消費せずに再生できます。日本語や中国語では男女で音声の印象が大きく異なるため、本格的な合成の前に必ず試聴してください。音声が合わなくて再生成することになると、クレジットが 2 倍かかります。
用途別の音声フォーマット選択
MP3 / AAC / OGG
- ファイルサイズが小さく、共有や埋め込みに向いている
- MP3 はデバイス互換性が最も広い
- AAC は同じビットレートでやや高音質
- OGG はオープンソース形式だが一部の古いデバイスでは非対応
WAV / FLAC / PCM
- ロスレスまたは非圧縮 — ファイルサイズが大きい
- 後から音声編集を行う場合は WAV か FLAC を選ぶ
- FLAC は WAV と同品質でサイズ約 50% 削減
- PCM は生サンプルデータで、ほとんどのプレーヤーで直接再生不可
速度範囲と聞き取りやすさ
速度は 0.5x(非常にゆっくり)から 4.0x(極めて速い)まで設定できます。ナレーション用途では 1.3〜1.5x が聞き取りやすい上限です。2.0x を超えると全ての音声・言語で発音の明瞭さが明らかに低下します。速いペースが必要な場合は、高い値を設定する前に 1.8x で一度テストすることをお勧めします。
単語タイムスタンプ(英語のみ)
単語タイムスタンプを有効にすると、音声と一緒に各単語の開始・終了時刻が返されます。再生中はトランスクリプトが現在読んでいる単語をハイライト表示します。追随字幕や語学学習プレーヤー、テキストと音声を同期させる必要があるページへの埋め込みに役立ちます。英語以外のすべての言語ではこのオプションはグレーアウトされています。
文字数とクレジット
1 回の生成で最大 10,000 文字まで入力できます。漢字・かな・英字・数字はすべて 1 文字としてカウントされます。クレジットは 1,000 文字単位で消費されます。10,000 文字は日本語で約 6,000〜7,000 字程度、英語では約 1,800 単語に相当します。