強化学習アルゴリズムの系統図
Q学習からPPO・SAC・AlphaZeroまで、乱立する強化学習アルゴリズムを3つの軸で一望できます。価値か方策か、モデルの有無、オン/オフ方策という分類で派生の理由と年代がつながります。
- 1.RLアルゴリズムは「価値ベース/方策ベース/Actor-Critic」「モデルフリー/モデルベース」「オン/オフ方策」の3軸で整理でき、各手法はこの座標上の点として位置づけられます。
- 2.系統は2本の幹から伸びます。価値ベースはQ学習(1989)→DQN(2013)→分布型/Rainbowへ、方策ベースはREINFORCE(1992)→A2C→TRPO→PPO→SACへ枝分かれします。
- 3.オフ方策は過去の経験を再利用できサンプル効率が高い一方で発散しやすく、オン方策は安定だがデータを使い捨てます。この緊張が分岐の主因です。
系統図を読み解く3つの軸
強化学習のアルゴリズムは数十種類が乱立しますが、無秩序ではありません。3本の直交する軸で座標を与えると、各手法はその上の一点として位置づけられ、派生関係が見えてきます。まずこの座標系を定義します。
| 軸 | 一方の極 | もう一方の極 | 本質的な問い |
|---|---|---|---|
| 何を学ぶか | 価値ベース(Q/V) | 方策ベース(π) | 行動を価値の最大化で選ぶか、確率を直接出すか |
| 環境の扱い | モデルフリー | モデルベース | 遷移 P(s'|s,a) を学習・利用するか |
| データの使い方 | オン方策 | オフ方策 | 更新に使うデータは今の方策由来に限るか |
3軸目の オン/オフ方策 が分岐の最大の駆動力なので、先に押さえます。オフ方策は「行動を集めた方策(行動方策)」と「学習対象の方策(目標方策)」が異なってよい性質で、過去の経験を 経験再生 で何度も再利用できます。サンプル効率は高いが、ブートストラップ・関数近似・オフ方策の3つが揃うと価値が発散する 致命的トライアド を抱えます。オン方策はデータを使い捨てる代わりに、この発散を避けやすく更新が安定します。
第1の幹:価値ベース系
価値ベースは「各状態・行動の将来価値 Q(s,a) を推定し、argmax_a Q(s,a) で貪欲に行動する」系統です。出発点は Q学習(Watkins, 1989)。これはベルマン最適方程式を1ステップずつ近似する TD学習 の一種で、行動方策と無関係に最適 Q* へ収束する オフ方策 手法です。同時期の SARSA は更新に「実際に次に取った行動」を使うオン方策版で、両者は系統の根で分かれます。
Q学習(オフ方策)の更新:
Q(s,a) ← Q(s,a) + α[ r + γ·max_a' Q(s',a') − Q(s,a) ]
↑ 次状態の最良行動を仮定(行動方策と独立)
SARSA(オン方策)の更新:
Q(s,a) ← Q(s,a) + α[ r + γ·Q(s',a') − Q(s,a) ]
↑ 実際に取った a' を使う
転機は DQN(Mnih et al., 2013/2015) です。Q を表ではなく ニューラルネット で近似し、Atari を生のピクセルから攻略しました。鍵は致命的トライアドを2つの仕掛けで抑えた点にあります。
- 経験再生バッファ:遷移を貯めてランダムに取り出し、サンプル間の相関を断つ
- ターゲットネットワーク:目標値の計算用に重みを固定したコピーを使い、自己参照の振動を抑える
DQNからの派生は「DQNの既知の欠陥を1つずつ潰す」形で進みました。Double DQN(max の過大評価バイアスを補正)、Dueling(状態価値と行動優位を分離)、優先度付き経験再生(誤差の大きい遷移を優先)、分布型RL(C51/QR-DQN:期待値でなくリターン分布を学習)と続き、これらを全部束ねたのが Rainbow(2017) です。
第2の幹:方策ベースとActor-Critic系
もう1本の幹は「価値を経由せず方策 π(a|s) を直接パラメータ化し、勾配で動かす」系統です。価値ベースが苦手な 連続行動空間 と 確率的方策 を自然に扱えるのが動機です。根は REINFORCE(Williams, 1992)。リターンを重みに log π の勾配を登る素朴な方策勾配で、不偏だが分散が極端に大きい弱点を持ちます。
この分散を潰す過程が、そのまま系統の枝分かれになります。ベースライン(状態価値)を引いて分散を下げ、価値関数も同時に学ぶ構造が Actor-Critic です。非同期並列で多数のワーカーを走らせる A3C(2016) が原型で、その同期版(更新をまとめて1回行う簡素な実装)が A2C です。さらに「1ステップで方策を動かしすぎる」オン方策の脆さに歯止めをかけたのが信頼領域法で、KL制約を厳密に課す TRPO(2015) と、確率比のクリップで軽量に近似した PPO(2017) が続きます。導出の詳細は 方策勾配法とPPO を参照してください。
ここで重要な交差が起きます。SAC(Soft Actor-Critic, 2018) は方策ベースの見た目を持ちながら、内部にQ関数を持ち経験再生を使う オフ方策 Actor-Criticです。報酬にエントロピー項を足す 最大エントロピーRL の定式化で、探索性とサンプル効率を両立しました。DDPG/TD3(連続行動版の決定論的方策勾配)も同じオフ方策Actor-Critic象限に属し、ここで2本の幹が事実上合流します。
連続制御で実務の二択になるPPOとSACの違いは、突き詰めると3軸目に帰着します。PPOはオン方策で安定・実装が容易・並列シミュレーションと相性が良い。SACはオフ方策でサンプル効率が高く、実機ロボットのようにサンプル収集が高コストな場面で有利です。「データが安いか高いか」が選択基準になります。
第3の幹:モデルベース系
3本目はモデルフリーの大前提を覆す系統です。環境の遷移 P(s'|s,a) と報酬を学習(または既知と仮定)し、それを使って計画や仮想的な経験生成を行います。サンプル効率が桁違いに高い反面、モデル誤差が方策に伝播するリスクを負います。
頂点が AlphaGo→AlphaZero(2017)→MuZero(2019) の系譜です。AlphaZeroは「ゲームのルール(完全なモデル)」を既知とし、モンテカルロ木探索(MCTS) で先読みしながら、その探索結果を教師に方策・価値ネットを自己対戦で鍛えます。MuZeroはさらにルールすら与えず、価値・報酬・方策の予測に必要な分だけの潜在モデル を学習する点で一線を画します。詳細な世界モデルの議論は モデルベースRLと世界モデル にあります。
AlphaZeroを「価値ベースか方策ベースか」で問うのは適切ではありません。方策ネットと価値ネットの両方を持ち(Actor-Criticに近い)、MCTSという計画器を介在させ(モデルベース)、自己対戦データで学ぶ(オン方策的)。3軸すべてで中間に位置する複合体であり、これこそ系統図の「軸はスペクトラムであって二値ではない」ことを示す好例です。
年代と分岐の系統樹
主要手法を年代順に、3軸の座標とともに並べます。矢印は「何を改善した派生か」を示します。
| 年 | 手法 | 学ぶもの | モデル | オン/オフ | 派生の核心 |
|---|---|---|---|---|---|
| 1989 | Q学習 | 価値 | フリー | オフ | TDで最適Qへ収束する基礎 |
| 1992 | REINFORCE | 方策 | フリー | オン | 対数微分で方策を直接勾配上昇 |
| 1994 | SARSA | 価値 | フリー | オン | Q学習のオン方策版 |
| 2013 | DQN | 価値 | フリー | オフ | Q学習+NN+再生+ターゲット網 |
| 2015 | TRPO | 方策 | フリー | オン | KL制約で信頼領域を保証 |
| 2016 | A3C/A2C | 両方 | フリー | オン | Actor-Criticの並列化 |
| 2016 | Double/Dueling | 価値 | フリー | オフ | DQNの過大評価と表現を改善 |
| 2017 | PPO | 方策 | フリー | オン | TRPOをクリップで軽量近似 |
| 2017 | Rainbow | 価値 | フリー | オフ | DQN改良6種の統合 |
| 2017 | AlphaZero | 両方 | ベース | (自己対戦) | MCTS×自己対戦で計画と学習を融合 |
| 2018 | SAC | 両方 | フリー | オフ | 最大エントロピーのオフ方策AC |
| 2019 | MuZero | 両方 | ベース | (自己対戦) | 潜在モデルでルール不要の計画 |
軸で読み解くと「なぜその派生か」が見える
この系統図の価値は、各手法を孤立した発明ではなく 特定の弱点への応答 として読める点にあります。整理すると次の連鎖になります。
- 価値ベースは離散行動に強いが連続行動で
argmaxが解けない → 方策ベースが必要になった - REINFORCEは分散が大きすぎる → ベースライン・Actor-Criticが分散を抑えた
- オン方策はデータを使い捨て効率が悪い → DQN/SACがオフ方策+経験再生で効率を上げた
- オフ方策は致命的トライアドで発散する → ターゲット網・Double・分布型RLが安定化した
- モデルフリーはサンプルを浪費する → AlphaZero/MuZeroがモデルと計画で効率を極めた
3軸を「どちらか一方」と捉えると誤読します。SACは方策とQの両方を持ち、AlphaZeroは3軸すべてで中間、GAEは「何ステップ先まで実測を使うか」でモデルフリー内のバイアス・分散を連続的に動かします。系統図は離散的な分類表ではなく、各軸が連続的な座標である 設計空間 だと捉えるのが正確です。実装を選ぶ際は「行動空間は離散か連続か」「サンプルは安いか高いか」「環境モデルは得られるか」の3問を、そのままこの3軸への質問として使えます。
現代のLLMアライメントで標準のPPO(やその派生GRPO)も、この系統樹の「方策ベース・モデルフリー・オン方策」の一点に位置づけられます。強化学習 の全体像を、この3軸の地図の上に置き直すと、新しい手法が登場しても「既存のどの弱点に、どの軸で応えたのか」という同じ問いで素早く位置づけられるようになります。
AI/機械学習 Article
強化学習アルゴリズムの系統図を実務で読む
TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。
解決すること
強化学習
比較で見る軸
難易度: advanced / カテゴリ: AI/機械学習 / タグ数: 6
導入後に効く点
系統は2本の幹から伸びます。価値ベースはQ学習(1989)→DQN(2013)→分布型/Rainbowへ、方策ベースはREINFORCE(1992)→A2C→TRPO→PPO→SACへ枝分かれします。
先に潰すリスク
用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。
- 難易度
- advanced
- カテゴリ
- AI/機械学習
- タグ数
- 6
判断チェックリスト
- 自社の用途が「強化学習 / アルゴリズム分類」に近いか確認する。
- 強みである「RLアルゴリズムは「価値ベース/方策ベース/Actor-Critic」「モデルフリー/モデルベース」「オン/オフ方策」の3軸で整理でき、各手法はこの座標上の点として位置づけられます。」が本当に評価軸になるか確認する。
- 注意点の「用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。」を運用で吸収できるか確認する。
- 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
- 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
- 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。