ai2026/6/23 13:00:00

深層強化学習における発達的報酬スケジュールの進化的発見

ニュース概要

強化学習（RL）における報酬構成の時間的構造は、通常、手動で設計され、トレーニング全体で固定されているため、モチベーションの優先順位の進行はほとんど探求されていません。本研究では、3つの明確に生物学的に着想を得たモチベーション要素（エージェンシー、新規性、反応性）を、トレーニングの過程で動的に変化する時間変化重みで組み合わせる、発達的報酬スケジュールの発見のための進化フレームワークを提案します。2つのスパース報酬MiniGridタスク（DoorKey-6x6およびKeyCorridorS3R1）で評価し、提案フレームワークは4つの進化アルゴリズム（CMA-ES、xNES、DE、L-SHADE）の汎化能力を、外発的モチベーションベースライン（主な比較対象）および3つの追加の手動設計手法と比較します。DoorKey-6x6では、すべての進化手法が非進化ベースラインを上回り、L-SHADEが最良のパフォーマンスを達成し、外発的のみのベースラインに対して約11.4%の相対平均改善が見られました。

解説

AIの世界では、コンピューターに何かを学ばせる時に「報酬」という考え方を使います。これは、AIが良い行動をしたら「ご褒美」、悪い行動をしたら「罰」を与えるようなイメージです。でも、このご褒美の与え方（報酬スケジュールと呼ばれます）は、これまでAIの専門家が「こう教えよう」と決めて、学習が終わるまでずっと同じように与えていました。

例えるなら、子供に「まずは挨拶をしっかりしなさい」と教え、それができたら「えらいね」と褒め、ずっとそればかりを褒め続けるようなものです。でも、実際には、子供だって成長するにつれて、褒めてほしいポイントが変わっていきますよね。最初は挨拶、次は片付け、そして勉強、といった具合に。AIも同じように、学習の段階に合わせて、何を重視して褒めるかを変えていく方が、もっと賢く、効率的に学べるのではないか？というのが、今回の研究の面白いところです。

この研究では、「発達的報酬スケジュール」という新しい考え方を提案しています。これは、AIの学習が進むにつれて、ご褒美の与え方を変えていく方法です。具体的には、AIの「自ら進んで行動する力（エージェンシー）」、「新しいことに挑戦する好奇心（新規性）」、「周りの変化に気づく力（反応性）」という3つの、まるで生き物のようなモチベーションを組み合わせて、学習の段階ごとにそれぞれの重要度を自動で調整します。まるで、子供の成長に合わせて「今はこれが大事だよ」と教える先生のように。

この新しい報酬の与え方を試すために、「MiniGrid」という、AIが迷路のような簡単なゲームでゴールを目指すタスクが使われました。特に、「DoorKey-6x6」と「KeyCorridorS3R1」という2つのタスクで、AIが「報酬」をなかなか見つけにくい（スパース報酬）状況で実験が行われました。さらに、この報酬の与え方を自動で見つけるために、4種類の「進化アルゴリズム」という、生物の進化を模した方法が使われました。これは、AI自身が「どんな報酬の与え方が一番うまくいくか」を、試行錯誤しながら見つけていくイメージです。これらの方法は、従来の「専門家が手動で決めた報酬の与え方」や、「とにかく目標達成だけを褒める方法」と比べて、どれだけ賢く学習できるかが比べられました。

その結果、特に「DoorKey-6x6」のタスクでは、進化アルゴリズムを使った方法が、手動で決めた方法よりも良い成績を収めました。中でも「L-SHADE」という進化アルゴリズムが一番の成果を出し、従来の単純な方法に比べて、AIの学習効率が約11.4%も向上したとのことです。これは、AIの学習方法に、より柔軟で人間らしい「教え方」を取り入れることで、大きな進歩が期待できることを示唆しています。

今後の予測

今回の研究で提案された「発達的報酬スケジュール」は、AIの学習効率を大きく高める可能性を秘めています。今後の展開としては、まず、より複雑で現実世界に近いタスクでの検証が期待されます。例えば、ロボットが複雑な作業を学習する際や、自動運転車が様々な状況に対応する能力を身につける際など、より高度な判断が求められる場面で、この報酬スケジュールの自動調整がどのように役立つかが注目されます。

また、今回使われた3つのモチベーション要素（エージェンシー、新規性、反応性）以外にも、AIの学習を促進する要素が見つかるかもしれません。例えば、AI同士が協力したり競い合ったりする中で生まれる「社会的モチベーション」や、過去の経験から「なぜうまくいったのか」を理解する「説明可能性」といった要素が、報酬スケジュールに組み込まれることで、さらに賢いAIが誕生する可能性があります。

一方で、報酬スケジュールの自動調整が、意図しない行動をAIに学習させてしまうリスクも考えられます。例えば、AIが「新規性」を追求しすぎるあまり、危険な行動や非効率な行動を繰り返してしまう可能性です。そのため、進化アルゴリズムの設計や、報酬の調整範囲に適切な制限を設けることが、今後の重要な課題となるでしょう。AIの「賢さ」と「安全性」の両立を目指す研究が、ますます進展していくと予想されます。