ai2026/5/29 13:00:00

FormInv: 数学推論ベンチマークにおけるセマンティック不変性の測定プロトコル
ニュース概要
MathCheck(ICLR 2025)のパラフレーズ品質監査により、129グループ中4つのセマンティック的に不正確なパラフレーズ(3.1%)が検出されました。これらを削除するとGPT-4oはランク2からランク4に低下し、Claude HaikuとDeepSeek V3がそれを上回ります。これらのランク変動は単一モデル評価では見えません。
ニュースタイムライン
2026年6月1日
GraphARC: グラフベース抽象推論の包括的ベンチマークarXiv cs.AI
2026年6月1日
EHRBench: LLMを用いた臨床意思決定のための自動化された信頼性の高いEHRベースベンチマークarXiv cs.AI
2026年6月1日
TeachObs:マルチモーダル教授観察と モデル評価のための人間検証済みベンチマークarXiv cs.CL
2026年6月2日
TrustLDM: 言語拡散モデルの信頼性ベンチマークarXiv cs.CL
2026年6月2日
マルチモデルAIシステムにおける創発的協調的熟慮:認識論的統合のためのBFT派生プロトコルarXiv cs.AI
2026年6月2日
思慮深い選別:マルチエージェント知識ベースのためのプロトコルarXiv cs.AI
2026年6月2日
大規模言語モデルにおけるインタラクティブ推論の評価:実行可能なゲームを用いた階層的ベンチマークarXiv cs.AI
2026年6月2日
SENSE: 検索ベースの推測的デコーディングのためのセマンティック埋め込みナビゲーション(ソフトゲート評価付き)arXiv cs.CL
2026年6月8日
UnpredictaBench: LLMにおける分布的ランダム性を評価するためのベンチマークarXiv cs.CL
2026年6月8日
MacArena: オンラインmacOS環境でのコンピュータ利用エージェントのベンチマークarXiv cs.LG
🤖
記事AI質問チャット
PREMIUMこの記事についてAIが質問に答えます。背景・要約・影響まで深堀り。
ログインして利用🛡️ 読者ファクトチェック0
読者が投稿し、管理者承認後に表示される事実確認情報
まだ承認済みのファクトチェックはありません。
ファクトチェックを投稿するには ログイン が必要です
関連記事
こんな記事も読まれています
コメント (0)
コメント投稿にはログインが必要です。
まだコメントはありません。最初のコメントを書いてみましょう。
この記事について疑問がありますか?
事実誤認や不適切な内容について通報できます (要ログイン)。
異議申し立て・通報








