生成前に音声をプレビューする

各音声にはプレビューボタンがあり、約 3 秒のサンプルをクレジットを消費せずに再生できます。日本語や中国語では男女で音声の印象が大きく異なるため、本格的な合成の前に必ず試聴してください。音声が合わなくて再生成することになると、クレジットが 2 倍かかります。

用途別の音声フォーマット選択

ファイルサイズが小さく、共有や埋め込みに向いている
MP3 はデバイス互換性が最も広い
AAC は同じビットレートでやや高音質
OGG はオープンソース形式だが一部の古いデバイスでは非対応

ロスレスまたは非圧縮 — ファイルサイズが大きい
後から音声編集を行う場合は WAV か FLAC を選ぶ
FLAC は WAV と同品質でサイズ約 50% 削減
PCM は生サンプルデータで、ほとんどのプレーヤーで直接再生不可

速度範囲と聞き取りやすさ

速度は 0.5x（非常にゆっくり）から 4.0x（極めて速い）まで設定できます。ナレーション用途では 1.3〜1.5x が聞き取りやすい上限です。2.0x を超えると全ての音声・言語で発音の明瞭さが明らかに低下します。速いペースが必要な場合は、高い値を設定する前に 1.8x で一度テストすることをお勧めします。

単語タイムスタンプ（英語のみ）

単語タイムスタンプを有効にすると、音声と一緒に各単語の開始・終了時刻が返されます。再生中はトランスクリプトが現在読んでいる単語をハイライト表示します。追随字幕や語学学習プレーヤー、テキストと音声を同期させる必要があるページへの埋め込みに役立ちます。英語以外のすべての言語ではこのオプションはグレーアウトされています。

文字数とクレジット

1 回の生成で最大 10,000 文字まで入力できます。漢字・かな・英字・数字はすべて 1 文字としてカウントされます。クレジットは 1,000 文字単位で消費されます。10,000 文字は日本語で約 6,000〜7,000 字程度、英語では約 1,800 単語に相当します。

テキスト読み上げ

生成前に音声をプレビューする

用途別の音声フォーマット選択

MP3 / AAC / OGG

WAV / FLAC / PCM

速度範囲と聞き取りやすさ

単語タイムスタンプ（英語のみ）

文字数とクレジット