UnpredictaBench: LLMにおける分布的ランダム性を評価するためのベンチマーク

ニュース概要

大規模言語モデル（LLM）が真の基礎分布をキャプチャする能力をテストする評価指標UnpredictaBenchが導入されました。LLMが経済シミュレーションなど他の主体の代替として使用される場合が増えていますが、多くのモデルが単一の尤もらしい答えに収束する傾向があり、実際のシステムの予測不可能性を捉えられていません。出力の多様性向上に関する最近の研究は不十分で、シミュレーションには単なるバリエーション豊かな出力ではなく、目標分布に校正されたサンプルが必要です。UnpredictaBenchは、正規統計分布、確率的プログラムによる分布、ランダムプロセスを記述する自然言語シナリオを含む448個の問題を提示し、コルモゴロフ・スミルノフ統計検定を用いてモデルの出力が目標分布にどの程度近いかを定量化するKS@Nという評価指標を導入しています。複数のオープンソースモデルと商用モデルをテストした結果、分布能力に大きなばらつきが見られ、サンプルサイズ100（標準指標KS@100）での得点は0近くから20%以上まで分布し、どのモデルもKS@100で40%を超える成績を達成できていません。

解説

AIが人間の代わりに意思決定をする場面が増えています。経済予測、天気シミュレーション、市場分析など、複雑なシステムの挙動を予測する仕事をAIに任せるケースが出てきたのです。ところが、現在の大規模言語モデル（LLM）には意外な弱点があります。それは「ランダムさ」をきちんと表現できていないということです。

現実世界は予測不可能性に満ちています。同じ条件でも結果が少しずつ異なるのが自然です。例えば、100回コインを投げれば、表は時には48回、時には52回出ます。経済市場も同じ。同じ材料でも、投資家の心理次第で株価は揺らぎます。しかし今のAIは、こうした「ゆらぎ」を正しく理解していません。同じ質問に何度も答えさせると、似たような答えばかり返してくるのです。

研究チームが新しい評価方法を提案しました。その名前は「UnpredictaBench」。日本語なら「予測不可能性ベンチマーク」といったところでしょう。これは、AIが本当に現実のランダムさを再現できているかどうかを測る物差しです。

テスト内容は工夫されています。正規分布という数学の基本的な分布から、確率計算が必要な複雑なシナリオまで、全部で448問が用意されました。例えば「サイコロを100回振ったときの出目の合計分布」といった問題です。AIが複数回答えさせて、その答えの分布を統計的に調べます。本来の分布に近いほど、AIが現実をちゃんと理解していることになります。

しかし結果は悲しいものでした。どのAIモデルも、この試験で合格点を取れていないのです。最良のモデルでも40%に届きません。つまり、AIが「本当のランダムさ」をまだ習得していないということが、数字で証明されてしまったわけです。

これが重要なのは、単なる学術的な問題ではないからです。もしAIが気象予報に使われたり、金融市場のシミュレーションに使われたりするなら、その予測不可能性を正確に表現できないと、社会全体が間違った判断をする危険があります。新しい評価法は、AIの限界を白日下に晒し、改善への道筋を示しているのです。