
画像: Pixabay
UnpredictaBench: LLMにおける分布的ランダム性を評価するためのベンチマーク
ニュース概要
大規模言語モデル(LLM)が真の基礎分布をキャプチャする能力をテストする評価指標UnpredictaBenchが導入されました。LLMが経済シミュレーションなど他の主体の代替として使用される場合が増えていますが、多くのモデルが単一の尤もらしい答えに収束する傾向があり、実際のシステムの予測不可能性を捉えられていません。出力の多様性向上に関する最近の研究は不十分で、シミュレーションには単なるバリエーション豊かな出力ではなく、目標分布に校正されたサンプルが必要です。UnpredictaBenchは、正規統計分布、確率的プログラムによる分布、ランダムプロセスを記述する自然言語シナリオを含む448個の問題を提示し、コルモゴロフ・スミルノフ統計検定を用いてモデルの出力が目標分布にどの程度近いかを定量化するKS@Nという評価指標を導入しています。複数のオープンソースモデルと商用モデルをテストした結果、分布能力に大きなばらつきが見られ、サンプルサイズ100(標準指標KS@100)での得点は0近くから20%以上まで分布し、どのモデルもKS@100で40%を超える成績を達成できていません。
解説
AIが人間の代わりに意思決定をする場面が増えています。経済予測、天気シミュレーション、市場分析など、複雑なシステムの挙動を予測する仕事をAIに任せるケースが出てきたのです。ところが、現在の大規模言語モデル(LLM)には意外な弱点があります。それは「ランダムさ」をきちんと表現できていないということです。
現実世界は予測不可能性に満ちています。同じ条件でも結果が少しずつ異なるのが自然です。例えば、100回コインを投げれば、表は時には48回、時には52回出ます。経済市場も同じ。同じ材料でも、投資家の心理次第で株価は揺らぎます。しかし今のAIは、こうした「ゆらぎ」を正しく理解していません。同じ質問に何度も答えさせると、似たような答えばかり返してくるのです。
研究チームが新しい評価方法を提案しました。その名前は「UnpredictaBench」。日本語なら「予測不可能性ベンチマーク」といったところでしょう。これは、AIが本当に現実のランダムさを再現できているかどうかを測る物差しです。
テスト内容は工夫されています。正規分布という数学の基本的な分布から、確率計算が必要な複雑なシナリオまで、全部で448問が用意されました。例えば「サイコロを100回振ったときの出目の合計分布」といった問題です。AIが複数回答えさせて、その答えの分布を統計的に調べます。本来の分布に近いほど、AIが現実をちゃんと理解していることになります。
しかし結果は悲しいものでした。どのAIモデルも、この試験で合格点を取れていないのです。最良のモデルでも40%に届きません。つまり、AIが「本当のランダムさ」をまだ習得していないということが、数字で証明されてしまったわけです。
これが重要なのは、単なる学術的な問題ではないからです。もしAIが気象予報に使われたり、金融市場のシミュレーションに使われたりするなら、その予測不可能性を正確に表現できないと、社会全体が間違った判断をする危険があります。新しい評価法は、AIの限界を白日下に晒し、改善への道筋を示しているのです。
関連データ
今後の予測
【シナリオ1:AIの改善が進むケース】 今後のLLM開発では、この評価法が「業界標準」になる可能性があります。スコアが低いことが明らかになれば、開発企業は改善を急ぐでしょう。2年以内に、より正確な分布再現能力を持つモデルが登場するかもしれません。
【シナリオ2:実用化が先行するケース】 一方で、企業はスコアの低さを知りながらも、AIをシミュレーションに使い続ける可能性もあります。「完璧でなくても、従来の方法より早い」という判断です。その場合、AIの予測の不正確さが実務レベルで問題化する可能性があります。
【シナリオ3:問題の本質的解決】 根本的には、AIが「確率分布」を直接学習する新しい設計が必要になるかもしれません。現在のAIは単語を順番に選ぶ仕組みなので、統計的な厳密性とは相性が悪いのです。そうなれば、全く新しい種類のAIが生まれることになります。
ニュースタイムライン
2026年5月29日
FormInv: 数学推論ベンチマークにおけるセマンティック不変性の測定プロトコルarXiv cs.LG
2026年6月1日
項目反応理論によるLLMベンチマークの監査arXiv cs.CL
2026年6月1日
BilliardPhys-Bench: マルチモーダルLLMの物理推論と視覚ダイナミクスのベンチマークarXiv cs.AI
2026年6月1日
GraphARC: グラフベース抽象推論の包括的ベンチマークarXiv cs.AI
2026年6月1日
TeachObs:マルチモーダル教授観察と モデル評価のための人間検証済みベンチマークarXiv cs.CL
2026年6月1日
EHRBench: LLMを用いた臨床意思決定のための自動化された信頼性の高いEHRベースベンチマークarXiv cs.AI
2026年6月1日
Gait2Hip-60:マルチケイデンス歩行運動学からの股関節筋力と関節モーメント予測のための統合深層学習ベンチマークarXiv cs.LG
2026年6月2日
TrustLDM: 言語拡散モデルの信頼性ベンチマークarXiv cs.CL
2026年6月2日
大規模言語モデルにおけるインタラクティブ推論の評価:実行可能なゲームを用いた階層的ベンチマークarXiv cs.AI
2026年6月8日
MacArena: オンラインmacOS環境でのコンピュータ利用エージェントのベンチマークarXiv cs.LG
参考引用
“LLMが実在システムの予測不可能性を捉えられていない
― arXiv cs.CL
記事AI質問チャット
PREMIUMこの記事についてAIが質問に答えます。背景・要約・影響まで深堀り。
ログインして利用🛡️ 読者ファクトチェック0
読者が投稿し、管理者承認後に表示される事実確認情報
まだ承認済みのファクトチェックはありません。
関連記事
こんな記事も読まれています
コメント (0)
まだコメントはありません。最初のコメントを書いてみましょう。
この記事について疑問がありますか?
事実誤認や不適切な内容について通報できます (要ログイン)。
異議申し立て・通報








