AI Debate は複数の大規模言語モデルを同一トピックで対戦させる構造化ディベートツールです。各 AI ディベーターは割り当てられた立場を守り、相手の論点に正面から反論しながらラウンドごとに発言します。単一モデルに「両方の立場を論じさせる」のとは異なり、異なるモデルを並列実行するため、学習データや推論スタイルの違いが本物の意見の衝突を生み出します。

トピックの具体性が議論の質に与える影響

トピックが具体的であるほど、論点に実質的な内容が生まれます。「AI は規制すべきか」では一般論にとどまりますが、「大規模言語モデルの展開前に独立した安全審査を義務化すべきか」と問えば、現実の課題に踏み込んだ論点が引き出されます。トピックは最大 2,000 文字まで入力できますが、明確な賛否を問う一文で十分です。各ディベーターの立場フィールドは最大 1,000 文字で、立場が具体的なほど（「反対：コンプライアンスコストはオープンソースモデルには強制できない」など）発言の質が上がります。

ディベーター数とラウンド数の組み合わせ方

2 名のディベーターに 3〜5 ラウンドが最も一般的な設定で、論点が展開しやすく冗長にもなりにくいバランスです。3〜4 名に増やすと多角的な視点が得られますが、各ディベーターはすべての先行発言を読んでから回答を生成するため、トークン消費がラウンドに比例して増加します。最大 10 ラウンドですが、6 ラウンドを超えると論点が繰り返しになりがちです。複数の視点を探るなら、2 名 × 8 ラウンドより 3 名 × 5 ラウンドの方が効率的なことが多いです。

ジャッジが有効な場面

ジャッジは全ラウンド終了後に AI が独立してディベート全体を採点し、論証の質・反論の効果・説得力・一貫性の 4 軸で構造化された評価を提供します。どちらの側がより説得力ある議論をしたかを素早く把握したい場合や、引用できる構造化サマリーが必要な場合はジャッジを有効にする価値があります。素材収集やモデル間の推論スタイル比較が目的なら、クレジット節約のためにオフにしても問題ありません。

ディベーター間の客観的な採点が必要なとき
教育目的で論証構造を分析するとき
トピックに明確な答えがあり、締めくくりが必要なとき
ディベートのトランスクリプトを外部で共有する予定があるとき

論点素材の収集が目的のとき
モデル間の推論スタイルを比較するとき
予算を抑えてトークン消費を減らしたいとき
正解のない開かれたトピックのとき

異なるモデルの組み合わせと同一モデルの両立場

各ディベーターに異なるモデルを割り当てると、同じモデルに反対の指示を与えるより本物に近い衝突が生まれます。学習データと推論の傾向自体が異なるためです。推論チェーンを公開するモデルは折りたたみ可能な「思考中」パネルを表示し、クリックすると最終発言の前の内部ステップが確認できます。通常の対話モデルは直接結論を提示するため、読みやすい一方で論点形成の過程は見えません。

一時停止と停止の違い

一時停止は現在のディベーターの発言が終わった時点でディベートを挂起し、手動で再開するまで待機します。停止は現在の発言終了後にディベート全体を終了し、元に戻せません。どちらの操作も完了済みの内容は失われません。ジャッジが有効な状態で途中停止した場合でも、完了済みのラウンドに対してジャッジが評価を行います。

エクスポートファイルの形式

エクスポートはプレーンテキストファイルです。トピックとラウンドヘッダーは区切り線で分かれ、発言者名は角括弧で示されます。

Debate: Should governments mandate AI safety audits?
==================================================

--- Round 1 ---

[Alpha]
（発言内容）

[Beta]
（発言内容）

--- Judge Evaluation ---

[Judge]
（裁定内容）

エクスポートはディベートが「完了」状態になった後のみ利用できます。進行中のディベートはエクスポートできません。

AI ディベート

トピックの具体性が議論の質に与える影響

ディベーター数とラウンド数の組み合わせ方

ジャッジが有効な場面

ジャッジを有効にする場面

ジャッジを省略する場面

異なるモデルの組み合わせと同一モデルの両立場

一時停止と停止の違い

エクスポートファイルの形式