音声文字起こし
音声文字起こしは、音声およびビデオファイルをテキストに変換するオンライン音声書き起こしツールです。複数の出力形式、話者ラベル、タイムスタンプ、翻訳などの機能を提供し、会議録、字幕作成、コンテンツアーカイブなどのシーンに適しています。
主な機能
多形式サポート
入力形式:一般的な音声形式(MP3、WAV、FLAC、AAC、OPUS、OGG、M4A)とビデオ形式(MP4、MPEG、MOV、WebM)をサポートします。
出力形式
話者識別
話者ラベル機能を有効にすると、ツールはさまざまな話者を区別してラベル付けでき、予想される話者数の範囲を設定できます。複数人の会話シーンでの書き起こし精度を向上させます。
多言語認識
100種類以上の言語の自動認識と書き起こしをサポートし、音声言語を手動で指定して認識精度を向上させることもできます。
タイムスタンプと翻訳
詳細JSONモードでは、単語レベルのタイムスタンプを有効にして、各単語の時間位置を正確に記録できます。非英語音声を英語出力に翻訳することをサポートします。
カスタムプロンプト
プロンプトワードを通じて書き起こし動作をガイドし、専門用語、人名、地名などを指定して、特定分野のコンテンツの認識精度を向上させます。
使用方法
- 音声またはビデオファイルをアップロード(最大100MB)
- 出力形式を選択(JSON、テキスト、SRT、VTT、詳細JSON)
- 音声言語を選択(オプション、空白のままにすると自動検出)
- 必要に応じて話者ラベル、翻訳、タイムスタンプなどの機能を有効にする
- 書き起こしボタンをクリックして処理を開始
- 書き起こしが完了するまで待ち、結果を表示またはダウンロード
パラメータ説明
出力形式:
- JSON:構造化テキスト出力で、プログラム処理に便利
- Text:プレーンテキスト形式で、直接読んだり編集したりするのに適しています
- SRT:標準字幕形式で、ほとんどのビデオプレーヤーと互換性があります
- VTT
字幕形式で、HTML5ビデオに適しています - 詳細JSON:単語レベルのタイムスタンプと詳細なメタデータを含む
言語:音声が使用している言語を指定します。正しい言語を選択すると認識精度が向上します。空白のままにすると、システムが自動的に検出します。
話者ラベル:有効にすると、さまざまな話者を区別してラベル付けします。オプションで最小および最大話者数を設定し、システムがより正確に話者を区別するのに役立ちます。
プロンプトワード:コンテキスト情報や特定の用語を提供し、書き起こしシステムが専門用語、人名、地名などを正しく認識するようにガイドします。例えば、「これは機械学習に関する会議で、講演者は張三と李四です」と入力します。
翻訳:有効にすると、非英語音声コンテンツを英語出力に翻訳します。
タイムスタンプ粒度:詳細JSON形式でのみ使用可能で、有効にすると単語レベルのタイムスタンプ情報を提供します。
応用シーン
会議録
会議録音をテキスト記録に変換し、話者ラベルを有効にしてさまざまな発言者を区別し、会議議事録の整理効率を向上させます。
字幕作成
ビデオコンテンツ用にSRTまたはVTT形式の字幕ファイルを生成し、ビデオ編集ソフトウェアまたはプレーヤーに直接インポートして使用します。
インタビュー整理
インタビュー録音をテキスト原稿に変換し、後続の編集とコンテンツ分析を容易にします。
コースノート
教室の録音またはオンラインコースをテキストノートに変換し、復習と検索を容易にします。
ポッドキャストアーカイブ
ポッドキャスト番組のテキストバージョンを生成し、コンテンツの検索性とアクセシビリティを向上させます。
法律と医療
法律相談、医療問診などの会話内容を書き起こし、記録保管と後続分析に使用します。
使用上のアドバイス
認識精度の向上
音声品質:クリアでノイズの少ない録音ファイルを使用し、背景ノイズが大きすぎたり音量が低すぎたりするのを避けてください。
言語選択:音声言語が明確にわかっている場合は、自動検出に依存せずに手動で選択することをお勧めします。これにより、精度が大幅に向上します。
プロンプトワードの使用:専門用語、人名、地名を含むコンテンツの場合、プロンプトワードで事前に説明し、システムが正しく認識するのに役立ちます。
話者ラベルの使用
音声に複数人の会話が含まれる場合は、話者ラベルを有効にして、合理的な話者数の範囲を設定します。例えば、二人の会話では最小2人、最大2人を設定します。複数人の会議では最小3人、最大10人を設定します。
適切な出力形式の選択
字幕ファイルが必要
プログラム処理が必要
テキストを読むだけ
タイムスタンプ情報が必要:詳細JSONを選択してタイムスタンプ粒度を有効にします。
注意事項
ツールの使用には積分が消費され、具体的な消費量は音声の長さと選択した機能によって異なります。
音声書き起こしの精度は、音声品質、話者のアクセント、背景ノイズ、話速などの要因に影響されます。高品質の録音デバイスと静かな環境の使用をお勧めします。
話者識別機能は、話者の音声特性が明らかな場合に効果が良く、音声が似ているか頻繁に中断される場合は混乱が発生する可能性があります。
翻訳機能は非英語コンテンツを英語に翻訳することのみをサポートし、現時点では他の翻訳方向はサポートしていません。
ファイルサイズの制限は100MBです。超大ファイルは、事前に圧縮またはセグメント処理することをお勧めします。
よくある質問
書き起こし結果に大量のエラーが発生する場合はどうすればよいですか$1
音声品質がクリアかどうかを確認し、正しい言語を手動で選択し、プロンプトワードで音声コンテンツのトピックとキーワードを説明してください。
話者ラベルが不正確ですか$2
話者数の設定が合理的かどうかを確認し、音声内のさまざまな話者の音声特性が明らかかどうかを確認してください。複数人の音声が似ている場合、認識精度は低下します。
生成された字幕をビデオで使用するにはどうすればよいですか$3
SRTまたはVTT形式でエクスポートします。ほとんどのビデオ編集ソフトウェア(Premiere、Final Cut Pro、剪映など)およびプレーヤー(VLC、PotPlayerなど)は、これらの形式の字幕ファイルのインポートをサポートしています。
リアルタイム書き起こしはサポートされていますか$4
現在、ツールは完全な音声ファイルをアップロードした後に書き起こしを実行することのみをサポートしており、現時点ではリアルタイム書き起こし機能はサポートしていません。
書き起こしされたテキストは正式な文書として直接使用できますか$5
音声書き起こしの結果は下書きとして使用することをお勧めします。正式な文書を公開する前に、人手によるレビューと編集を行い、正確性と流暢性を確保する必要があります。
