AI リップシンクスタジオ

入力音声の秒数に応じてクレジットが消費されます。高品質モデルほど1秒あたりのコストが高くなります。

概要

AI LipSync は動画内の口の動きを新しい音声トラックに合わせてフレームごとに置き換えます。顔が映った動画とターゲット音声をアップロードすると、元の表情・頭の動き・背景シーンを保ったまま、口だけが新しいセリフに合わせて動く結果動画が生成されます。主な用途は動画の吹き替え・多言語ローカライゼーション・カスタムボイスを使った SNS コンテンツ制作です。

入力

ソース動画

ターゲット音声

出力

結果動画

動画と音声の長さが一致しない場合の対処法

ソース動画とターゲット音声の長さが異なる場合、同期方式を選択します。

カットオフ: 短い方の長さに合わせ、余分な部分を削除
ループ: 音声の全長をカバーするまで動画を繰り返す
バウンス: 動画を正方向→逆方向と繰り返す。明確な開始・終了がない素材に向いています
無音填充: 音声終了後も動画を再生し続け、余分な部分は無音にする
リマップ: 動画のフレームレートを伸縮させて音声の長さに合わせる

長さの差が 2:1 を超える場合、ループ系の方式では繰り返し感が目立ちます。そのような場合はソース素材をあらかじめ近い長さにトリミングしてから処理することを推奨します。

ソース動画の品質が結果に与える影響

フレーム内の顔が大きく・正面向きで・鮮明なほど、リップマッピングが自然になります。以下の状況は品質を著しく低下させます。

大きな横顔（45° 超え）: 口唇の輪郭と深度推定が不正確になります
口が手・マイク・マスクで隠れている — Sync モデルを使用する場合は遮蔽物検出を有効にすると、物体が自然に保持されます
モーションブラーや低フレームレート: フレームごとのリップマッピングが参照点を失います
複数人が映っている動画: 発話者自動検出を有効にすると、モデルが話している人物を特定しようとします

1 人・正面向き・十分な照明の動画が最も安定した結果をもたらします。複数人のシーンでは、処理前に対象人物だけが映る単人クリップを切り出してください。

処理が速い
SNS 用ドラフトや素早い確認に適している
詳細パラメータなし

同期方式・創造性・遮蔽物検出・発話者自動検出に対応
Sync Pro は高精度のプロ吹き替えに最適
音声の秒数で課金。料金はモデルによって異なり、選択画面で確認できます

音声品質が重要な理由

口の形は音声内の音素列によって駆動されます。BGM や環境ノイズが音素検出を妨げ、セリフの内容と口の動きが一致しなくなります。リバーブが少ない単人のクリーンな音声が最も安定した結果をもたらします。BGM と混合された音声は、アップロード前にボーカル分離ツールで処理することを推奨します。

AI リップシンクスタジオ

動画と音声の長さが一致しない場合の対処法

ソース動画の品質が結果に与える影響

PixVerse LipSync

Sync lipsync 2 / Sync Pro

音声品質が重要な理由