強化学習アルゴリズムの系統図とは？仕組みと要点をわかりやすく解説

系統図を読み解く3つの軸

強化学習のアルゴリズムは数十種類が乱立しますが、無秩序ではありません。3本の直交する軸で座標を与えると、各手法はその上の一点として位置づけられ、派生関係が見えてきます。まずこの座標系を定義します。

軸	一方の極	もう一方の極	本質的な問い
何を学ぶか	価値ベース（Q/V）	方策ベース（π）	行動を価値の最大化で選ぶか、確率を直接出すか
環境の扱い	モデルフリー	モデルベース	遷移 P(s'\|s,a) を学習・利用するか
データの使い方	オン方策	オフ方策	更新に使うデータは今の方策由来に限るか

3軸目の オン/オフ方策 が分岐の最大の駆動力なので、先に押さえます。オフ方策は「行動を集めた方策（行動方策）」と「学習対象の方策（目標方策）」が異なってよい性質で、過去の経験を経験再生で何度も再利用できます。サンプル効率は高いが、ブートストラップ・関数近似・オフ方策の3つが揃うと価値が発散する 致命的トライアド を抱えます。オン方策はデータを使い捨てる代わりに、この発散を避けやすく更新が安定します。

第1の幹：価値ベース系

価値ベースは「各状態・行動の将来価値 Q(s,a) を推定し、argmax_a Q(s,a) で貪欲に行動する」系統です。出発点は Q学習（Watkins, 1989）。これはベルマン最適方程式を1ステップずつ近似する TD学習の一種で、行動方策と無関係に最適 Q* へ収束する オフ方策 手法です。同時期の SARSA は更新に「実際に次に取った行動」を使うオン方策版で、両者は系統の根で分かれます。

Q学習（オフ方策）の更新：
  Q(s,a) ← Q(s,a) + α[ r + γ·max_a' Q(s',a') − Q(s,a) ]
                                  ↑ 次状態の最良行動を仮定（行動方策と独立）

SARSA（オン方策）の更新：
  Q(s,a) ← Q(s,a) + α[ r + γ·Q(s',a')     − Q(s,a) ]
                                  ↑ 実際に取った a' を使う

転機は DQN（Mnih et al., 2013/2015） です。Q を表ではなくニューラルネットで近似し、Atari を生のピクセルから攻略しました。鍵は致命的トライアドを2つの仕掛けで抑えた点にあります。

経験再生バッファ：遷移を貯めてランダムに取り出し、サンプル間の相関を断つ
ターゲットネットワーク：目標値の計算用に重みを固定したコピーを使い、自己参照の振動を抑える

DQNからの派生は「DQNの既知の欠陥を1つずつ潰す」形で進みました。Double DQN（max の過大評価バイアスを補正）、Dueling（状態価値と行動優位を分離）、優先度付き経験再生（誤差の大きい遷移を優先）、分布型RL（C51/QR-DQN：期待値でなくリターン分布を学習）と続き、これらを全部束ねたのが Rainbow（2017） です。

第2の幹：方策ベースとActor-Critic系

もう1本の幹は「価値を経由せず方策 π(a|s) を直接パラメータ化し、勾配で動かす」系統です。価値ベースが苦手な 連続行動空間 と 確率的方策 を自然に扱えるのが動機です。根は REINFORCE（Williams, 1992）。リターンを重みに log π の勾配を登る素朴な方策勾配で、不偏だが分散が極端に大きい弱点を持ちます。

この分散を潰す過程が、そのまま系統の枝分かれになります。ベースライン（状態価値）を引いて分散を下げ、価値関数も同時に学ぶ構造が Actor-Critic です。非同期並列で多数のワーカーを走らせる A3C（2016） が原型で、その同期版（更新をまとめて1回行う簡素な実装）が A2C です。さらに「1ステップで方策を動かしすぎる」オン方策の脆さに歯止めをかけたのが信頼領域法で、KL制約を厳密に課す TRPO（2015） と、確率比のクリップで軽量に近似した PPO（2017） が続きます。導出の詳細は方策勾配法とPPO を参照してください。

ここで重要な交差が起きます。SAC（Soft Actor-Critic, 2018） は方策ベースの見た目を持ちながら、内部にQ関数を持ち経験再生を使う オフ方策 Actor-Criticです。報酬にエントロピー項を足す 最大エントロピーRL の定式化で、探索性とサンプル効率を両立しました。DDPG/TD3（連続行動版の決定論的方策勾配）も同じオフ方策Actor-Critic象限に属し、ここで2本の幹が事実上合流します。

PPOとSACの住み分けはオン/オフ方策の選択そのもの

連続制御で実務の二択になるPPOとSACの違いは、突き詰めると3軸目に帰着します。PPOはオン方策で安定・実装が容易・並列シミュレーションと相性が良い。SACはオフ方策でサンプル効率が高く、実機ロボットのようにサンプル収集が高コストな場面で有利です。「データが安いか高いか」が選択基準になります。

第3の幹：モデルベース系

3本目はモデルフリーの大前提を覆す系統です。環境の遷移 P(s'|s,a) と報酬を学習（または既知と仮定）し、それを使って計画や仮想的な経験生成を行います。サンプル効率が桁違いに高い反面、モデル誤差が方策に伝播するリスクを負います。

頂点が AlphaGo→AlphaZero（2017）→MuZero（2019） の系譜です。AlphaZeroは「ゲームのルール（完全なモデル）」を既知とし、モンテカルロ木探索（MCTS） で先読みしながら、その探索結果を教師に方策・価値ネットを自己対戦で鍛えます。MuZeroはさらにルールすら与えず、価値・報酬・方策の予測に必要な分だけの潜在モデル を学習する点で一線を画します。詳細な世界モデルの議論はモデルベースRLと世界モデルにあります。

AlphaZeroは単純な分類に収まらないハイブリッド

AlphaZeroを「価値ベースか方策ベースか」で問うのは適切ではありません。方策ネットと価値ネットの両方を持ち（Actor-Criticに近い）、MCTSという計画器を介在させ（モデルベース）、自己対戦データで学ぶ（オン方策的）。3軸すべてで中間に位置する複合体であり、これこそ系統図の「軸はスペクトラムであって二値ではない」ことを示す好例です。

年代と分岐の系統樹

主要手法を年代順に、3軸の座標とともに並べます。矢印は「何を改善した派生か」を示します。

年	手法	学ぶもの	モデル	オン/オフ	派生の核心
1989	Q学習	価値	フリー	オフ	TDで最適Qへ収束する基礎
1992	REINFORCE	方策	フリー	オン	対数微分で方策を直接勾配上昇
1994	SARSA	価値	フリー	オン	Q学習のオン方策版
2013	DQN	価値	フリー	オフ	Q学習＋NN＋再生＋ターゲット網
2015	TRPO	方策	フリー	オン	KL制約で信頼領域を保証
2016	A3C/A2C	両方	フリー	オン	Actor-Criticの並列化
2016	Double/Dueling	価値	フリー	オフ	DQNの過大評価と表現を改善
2017	PPO	方策	フリー	オン	TRPOをクリップで軽量近似
2017	Rainbow	価値	フリー	オフ	DQN改良6種の統合
2017	AlphaZero	両方	ベース	（自己対戦）	MCTS×自己対戦で計画と学習を融合
2018	SAC	両方	フリー	オフ	最大エントロピーのオフ方策AC
2019	MuZero	両方	ベース	（自己対戦）	潜在モデルでルール不要の計画

軸で読み解くと「なぜその派生か」が見える

この系統図の価値は、各手法を孤立した発明ではなく 特定の弱点への応答 として読める点にあります。整理すると次の連鎖になります。

価値ベースは離散行動に強いが連続行動で argmax が解けない → 方策ベースが必要になった
REINFORCEは分散が大きすぎる → ベースライン・Actor-Criticが分散を抑えた
オン方策はデータを使い捨て効率が悪い → DQN/SACがオフ方策＋経験再生で効率を上げた
オフ方策は致命的トライアドで発散する → ターゲット網・Double・分布型RLが安定化した
モデルフリーはサンプルを浪費する → AlphaZero/MuZeroがモデルと計画で効率を極めた

分類は二値でなくスペクトラム

3軸を「どちらか一方」と捉えると誤読します。SACは方策とQの両方を持ち、AlphaZeroは3軸すべてで中間、GAEは「何ステップ先まで実測を使うか」でモデルフリー内のバイアス・分散を連続的に動かします。系統図は離散的な分類表ではなく、各軸が連続的な座標である 設計空間 だと捉えるのが正確です。実装を選ぶ際は「行動空間は離散か連続か」「サンプルは安いか高いか」「環境モデルは得られるか」の3問を、そのままこの3軸への質問として使えます。

現代のLLMアライメントで標準のPPO（やその派生GRPO）も、この系統樹の「方策ベース・モデルフリー・オン方策」の一点に位置づけられます。強化学習の全体像を、この3軸の地図の上に置き直すと、新しい手法が登場しても「既存のどの弱点に、どの軸で応えたのか」という同じ問いで素早く位置づけられるようになります。

強化学習アルゴリズムの系統図

系統図を読み解く3つの軸

第1の幹：価値ベース系

第2の幹：方策ベースとActor-Critic系

第3の幹：モデルベース系

年代と分岐の系統樹

軸で読み解くと「なぜその派生か」が見える

強化学習アルゴリズムの系統図を実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点