モデルベース強化学習と世界モデル

モデルフリーとモデルベースの分岐

強化学習は、環境のダイナミクスを陽に学ぶかどうかで二分されます。Q学習やDQN、方策勾配・PPOに代表されるモデルフリー法は、価値や方策を実経験から直接推定し、環境の内部構造は学習しません。実装が単純で漸近性能も高い一方、1つの遷移サンプルから引き出す情報量が乏しく、数百万〜数億ステップを要することが珍しくありません。

モデルベース強化学習は、環境の遷移モデル p(s'|s,a)（状態 s で行動 a を取ると次状態 s' に至る確率）と報酬モデル r(s,a) を学習します。一度モデルを得れば、実環境に触れずに頭の中で行動を試せる——つまりプランニング（先読み計画）と想像上のロールアウトが可能になり、実サンプルあたりの学習効率（サンプル効率）が劇的に上がります。

モデルが与えてくれるもの

モデルは「もし a を取ったら何が起きるか」への反実仮想的な答えです。これにより、危険な行動を実環境で試さずに評価でき、1回の実経験を何度も再利用できます。

Dyna: モデルと実経験の併用

Dyna（Sutton）は、モデルフリーとモデルベースを橋渡しする最小構成です。骨子は次の3つを並行して回す点にあります。

1. 実経験 (s,a,r,s') を得て、Q を直接更新する（モデルフリー部）
2. 同じ経験でモデル p, r を更新する
3. 学習済みモデルから過去に訪れた (s,a) をサンプルし、
   想像上の (r,s') を生成して Q を追加更新する（プランニング部）

ステップ3を1回の実経験あたり n 回回すことで、実サンプルを増やさずに価値推定を多数回ブートストラップできます。価値更新の理屈そのものはTD学習やベルマン方程式と同一で、Dynaは「TD更新の入力を実経験だけでなくモデル生成経験からも供給する」発想だと言えます。決定的な利点はサンプル効率、リスクはモデルが誤っていれば誤った価値を強化してしまう点です。

MCTS: 探索木による先読み

AlphaZeroが用いる**モンテカルロ木探索（MCTS）**は、モデル（碁・将棋では完全に既知の遷移規則）を使って未来を木として展開し、各手の有望さを評価します。1回のシミュレーションは4段階です。

段階	内容
選択	UCBに似た基準（探索ボーナス付きの行動価値）で葉まで木を辿る
展開	葉に新しい子ノードを追加する
評価	ニューラルネット（価値ヘッド）で葉の価値を見積もる
逆伝播	評価値を根まで遡り、各ノードの平均価値と訪問回数を更新する

AlphaZeroの要点は、MCTSの探索を方策の改善演算子として使い、その探索結果（訪問回数分布）を教師に方策ネットを蒸留する点です。探索が方策を改善し、改善した方策が次の探索を鋭くする——この相互改善ループが自己対戦で回ります。遷移が既知の決定的環境で威力を発揮しますが、遷移を学習しなければならない一般環境では、後述の複合誤差が探索の信頼性を蝕みます。

Dreamer: 潜在世界モデルでの想像

Dreamer系は、高次元観測（画像など）を直接扱うのではなく、観測を低次元の潜在状態に圧縮した潜在世界モデルを学び、その潜在空間内だけで長いロールアウトを行います。中核はRSSM（再帰状態空間モデル）で、決定的な再帰状態と確率的潜在変数を組み合わせ、次潜在状態・報酬・観測の再構成・エピソード終了を予測します。学習信号はVAEのELBOに近い変分目的です。

潜在状態 z_t から、想像ホライズン H ステップ分を
モデル内部だけで展開:
  z_t -> z_{t+1} -> ... -> z_{t+H}
各ステップで報酬を予測し、価値関数とアクター（方策）を
この想像軌道上の勾配で更新する

決定的な利点は、実環境とのやり取りを潜在ロールアウトに置き換えることで、ピクセルを毎ステップ生成せずに済み、勾配を想像軌道に直接流して方策を効率学習できる点です。複合誤差はホライズン H を短く抑えることと、潜在空間で誤差が増幅しにくい表現を学ぶことで緩和します。

本質的な弱点: 複合誤差

モデルベースの最大の難点は**複合誤差（compounding error）**です。1ステップの予測誤差は小さくとも、モデル出力を次の入力に食わせて多段ロールアウトすると、誤差が指数的に累積し、軌道後半は現実から乖離します。長いホライズンで計画するほど、想像上の最適解が実環境では無意味になりやすいのです。

誤ったモデルへの過剰最適化

方策はモデルの欠陥（実在しない高報酬の抜け道）を貪欲に突きにいきます。モデルが楽観的に外挿した領域を方策が利用し、実環境で破綻するのは典型的な失敗様式です。

実務上の対策は次のとおりです。

短ホライズン化: ロールアウトを数ステップに制限し、誤差累積を断つ（MBPOなど）。
不確実性の明示: モデルのアンサンブルで予測分散を測り、不確実な領域では計画を控えめにする。
モデル誤差への悲観: 報酬から不確実性ペナルティを引き、未知領域への過剰最適化を抑える（オフラインRLで顕著）。

押さえどころ

モデルベースは「サンプル効率と引き換えに複合誤差を背負う」のが本質。Dyna＝想像経験で価値更新、MCTS＝既知/学習モデルでの木探索、Dreamer＝潜在空間での微分可能ロールアウト、と対応づけて整理すると区別が明確になります。

まとめ

モデルベース強化学習は、遷移と報酬を学んで「頭の中で試す」ことで、モデルフリーより桁違いに少ない実経験から計画・学習できます。Dynaは実経験と想像経験の併用、MCTSは木探索による先読み、Dreamerは潜在世界モデルでの長期想像という、想像の使い方の系譜です。ただしモデル誤差はロールアウトで累積し、方策はその欠陥を突きにいく——この複合誤差をホライズン制御と不確実性推定でどう御するかが、実用化の分水嶺になります。

モデルベース強化学習と世界モデル

モデルフリーとモデルベースの分岐

Dyna: モデルと実経験の併用

MCTS: 探索木による先読み

Dreamer: 潜在世界モデルでの想像

本質的な弱点: 複合誤差

まとめ

モデルベース強化学習と世界モデルを実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点