ai2026/5/29 13:00:00

FormInv: 数学推論ベンチマークにおけるセマンティック不変性の測定プロトコル

ニュース概要

MathCheck（ICLR 2025）のパラフレーズ品質監査により、129グループ中4つのセマンティック的に不正確なパラフレーズ（3.1%）が検出されました。これらを削除するとGPT-4oはランク2からランク4に低下し、Claude HaikuとDeepSeek V3がそれを上回ります。これらのランク変動は単一モデル評価では見えません。