AI音声クローンは、参照音声クリップのボイストーンを新しいテキストに転写し、元の話者に似た合成音声を生成するツールです。録音をアップロードし、読み上げさせたいテキストを入力するだけで、音声ファイルをダウンロードできます。
参照音声が品質に与える影響
参照録音は最も重要な変数であり、出力音声が元の話者にどれだけ近いかを直接決定します。
- 5〜30秒の音声が目安。3秒未満だと音声特徴が不安定になる
- 一人の話者、静かな環境、エコーなし — 背景ノイズや残響は出力音声にそのまま反映される
- 話速と音量を安定させ、極端な音程変化を避ける — モデルはクリップ全体の平均的な特徴を学習する
- 対応フォーマット:MP3、WAV、M4A、OGG
テキストの長さと長文スクリプトの分割方法
テキストフィールドは最大2000文字まで受け付けます。それ以上の場合は、手動で分割して送信してください。
同じ参照音声を複数回の生成に使用した場合、セグメント間でポーズや抑揚がわずかに異なることがあります。長い音声を作成する場合は、各チャンクを500文字以内に抑え、後からオーディオエディタでセグメントを結合することを推奨します。
参照テキストフィールドの役割
「参照テキスト」は、アップロードした音声クリップで話された内容の書き起こしです — 任意入力です。入力することで、参照クリップの発音パターンの理解が深まり、音声に非母語アクセントや多くのポーズがある場合に声の一貫性が向上します。参照音声の言語と出力テキストの言語が異なる場合に特に有効です。
効果的なスタイル指示の書き方
スタイル指示は、希望するトーンと感情を説明する短いフレーズです — 例:「落ち着いた、プロフェッショナルな、ナレーションに適した口調」や「エネルギッシュで明るい、広告向けの口調」。
- 簡潔かつ具体的に — 1文で十分
- 矛盾する説明(「リラックスしつつも正式」)は一貫性のない出力を生む
- スタイル指示は話し方とペースに影響するが、音色そのものは変わらない — 音声は常に参照音声から来る
対応言語
ツールは10言語に対応しており、言語セレクターで一覧を確認できます。出力テキストに合った言語を選ぶことで、サービスが発音とアクセントのルールを正しく処理できます。参照音声の言語と出力言語は一致させる必要はなく、クロスランゲージの音声転写がサポートされています。ただし、言語をまたぐとアクセントの特徴は多少変わります。