音声文字起こしは、音声・動画ファイルをテキストに変換するツールです。MP3、WAV、FLAC、AAC、OPUS、OGG、M4A、MP4、MPEG、MOV、WebMに対応し、1ファイルあたり最大100MBまでアップロードできます。出力形式の選択は後工程に直接影響するため、送信前に違いを把握しておくことが重要です。
出力形式の選び方
字幕形式
- SRT — 最も互換性の高い字幕形式。Premiere、Final Cut、CapCut、VLC、PotPlayerで使用可能
- VTT — WebサイトのHTML5
<video>要素に最適
テキスト・データ形式
- Text — ドキュメントに貼り付けたり読んだりするためのプレーンテキスト
- JSON — 開始・終了時刻付きの構造化セグメント。スクリプト処理に適している
- 詳細JSON — 単語レベルのタイムスタンプと話者アノテーションを追加。単語ごとのタイミングや話者分離データが必要な場合に選択
単語レベルのタイムスタンプは「詳細JSON」形式を選択したときのみ有効にできます。話者ラベルも詳細JSONで最も完全なデータが得られます — 他の形式ではアノテーションが部分的になる場合があります。
話者ラベルの設定
複数の声が含まれる録音では話者ラベルを有効にしてください。最小・最大話者数を設定してモデルの動作を制約します。2人のインタビューであれば両方を2に設定し、5〜8人のパネルディスカッションであれば最小3・最大8または10に設定します。ターンが明確に分かれている場合、範囲を絞ることで誤割り当てが減ります。
話者の分離は声の音響的な特徴が明確で、頻繁な割り込みがない場合に最もうまく機能します。2人の声が似ていたり、常に重なり合っていたりする録音は、設定に関わらずラベルの精度が下がります。
プロンプト欄の実際の役割
プロンプト欄は検索フィルターではありません。録音に出てきそうな語彙をモデルに事前に知らせることで、珍しい用語の認識精度を上げるためのものです。
- 専門用語・略語:
WebAssembly、gRPC、CORS - 固有名詞:
中島哲也、Cloudflare、Anthropic - 短い文脈説明: 「これはTypeScriptコンパイラの内部構造に関するポッドキャストです」
プロンプトは出力言語に影響せず、どのセグメントを書き起こすかも変えません。
精度に影響する音声条件
以下の条件で結果が大幅に改善されます。
- 音声が明瞭で背景ノイズが少ない(会議室はカフェより良い)
- 話すペースが適度で、発音が明瞭
- 全体を通して一言語のみが使われており、コードスイッチングがない
以下の状況では精度が落ちます: 強いアクセント、非常に速い話し方、声の上にかかる背景音楽、複数人が同時に話す状況、低ビットレートで録音された圧縮音声。
英語への翻訳オプション
翻訳を有効にすると、音声が他の言語であっても英語のテキストとして出力されます。これは一方向のみです — どの言語からでも英語に変換しますが、英語音声を他の言語に翻訳することはできません。慣用表現や専門用語の多い内容は人間の翻訳と異なる場合があるため、公開前に確認してください。