ai2026/5/29 13:00:00

ディベートは弱い審査官がより強いモデルに報酬を与えるのに役立ちます

ニュース概要

理論的な約束にもかかわらず、スケーラブルな監視プロトコルとしてのディベートは混合した実証結果をもたらしています。いくつかの設定では利益を得ていますが、特に審査官が隠された情報を持たない場合は、他の設定では効果がありません。より強いディベーター・より弱い審査官の設定で提案者批評家ディベートを研究しました。