アドバンテージ推定（GAE）と分散低減

なぜアドバンテージ推定が学習の質を決めるのか

方策勾配法と PPO で見たとおり、方策勾配の更新式は ∇log π_θ(a|s) に係数を掛けた形をしています。この係数に何を使うかで学習の安定性が決まります。素朴な REINFORCE は実測リターン G_t を使いますが、これは不偏（期待値としては正しい勾配）な代わりに 分散が極端に大きい。係数を真のアドバンテージ A(s,a) = Q(s,a) − V(s) に置き換えると分散は下がりますが、真の A は未知なので推定するしかありません。

ここで本質的な問いが生じます。アドバンテージを推定するとき、「何ステップ先の実測まで信用するか」 をどう決めるか。実測を多く使えば偏りは消えるが分散が増える。価値関数 V の予測に頼れば分散は減るが V の誤差がそのままバイアスとして混入する。GAE（Generalized Advantage Estimation）は、このトレードオフを 連続パラメータ λ ひとつで調律する 枠組みです。

この記事のゴール

GAE を「TD誤差の指数加重和」として導出し、λ=0 と λ=1 の両極が既知の推定量に一致することを確認します。さらに、なぜベースラインに価値関数を使うと不偏のまま分散が下がるのか、PPO 実装での扱いまでを一気通貫で説明します。

出発点：k ステップアドバンテージ

割引リターンの定義から始めます。TD誤差を次のように置きます。

δ_t = r_t + γ·V(s_{t+1}) − V(s_t)
   r_t : 時刻tで得た報酬
   γ   : 割引率（0 から 1）
   V   : 価値関数（学習中の近似 V_φ）

δ_t は「1ステップだけ実測を入れた」アドバンテージ推定そのものです。ここで V が真の価値なら δ_t の期待値は真のアドバンテージに一致しますが、V は近似なので誤差が乗ります。実測をもっと長く使う k ステップ推定 はこう書けます。

A_t^(1) = δ_t                            （1ステップ）
A_t^(2) = δ_t + γ·δ_{t+1}                 （2ステップ）
A_t^(k) = Σ_{l=0}^{k-1} γ^l · δ_{t+l}     （kステップ）

この式が成り立つのは、隣接する TD誤差の V 項が望遠鏡和（telescoping）で打ち消し合うからです。A_t^(k) を展開すると中間の V(s_{t+1}) などが消え、Σ γ^l r_{t+l} + γ^k V(s_{t+k}) − V(s_t) という「k ステップ分は実測、残りは V で代用」の形になります。

k を大きくするほど何が起きるか

k を大きくすると実測報酬 r の寄与が増え、末尾の γ^k·V(s_{t+k}) のブートストラップ項が小さくなります。つまり k が大きい＝実測寄り＝低バイアス・高分散、k が小さい＝V への依存大＝高バイアス・低分散。k=∞（エピソード終端まで）はモンテカルロ推定で不偏ですが、長い軌跡ぶんの確率的ノイズを全部抱え込みます。どの単一の k を選んでも一長一短で、これが GAE が解こうとする問題です。

GAE：すべての k を指数加重で混ぜる

単一の k を選ぶ代わりに、すべての A_t^(k) を重み付き平均で混ぜる のが GAE の発想です。重みを (1−λ)·λ^(k-1) という幾何分布（総和が 1 になる）に取り、λ が 0 に近いほど小さい k を、1 に近いほど大きい k を重視させます。

A_t^GAE(γ,λ) = (1−λ) · ( A_t^(1) + λ·A_t^(2) + λ^2·A_t^(3) + ... )

この無限和を δ で書き直すと、驚くほど簡潔な閉じた形に畳めます。各 A_t^(k) を TD誤差の和に展開して項を整理すると、重みが指数的にまとまり、最終形は次のようになります。

A_t^GAE(γ,λ) = Σ_{l=0}^{∞} (γλ)^l · δ_{t+l}

これが GAE の核心の式です。アドバンテージ推定が「TD誤差 δ の指数加重和」になり、減衰率は γλ ひとつ で決まります。γ は本来の割引、λ は推定量の調律ノブとして役割が分離されている点が美しい設計です。実装上は軌跡を後ろから前へ走査し、A_t = δ_t + γλ·A_{t+1} という1行の再帰で計算できます。

# 軌跡を末尾から先頭へ逆順に走査して GAE を計算
adv = 0.0
advantages = [0.0] * T
for t in reversed(range(T)):
    nonterminal = 1.0 - done[t]            # 終端なら次状態の価値を使わない
    delta = reward[t] + gamma * value[t+1] * nonterminal - value[t]
    adv = delta + gamma * lam * nonterminal * adv
    advantages[t] = adv
# Critic の学習標的（リターン）は advantage に V を足して復元
returns = [advantages[t] + value[t] for t in range(T)]

再帰が指数加重和と一致する理由

A_t = δ_t + γλ·A_{t+1} を展開すると A_t = δ_t + γλ·δ_{t+1} + (γλ)^2·δ_{t+2} + ... となり、まさに上の指数加重和そのものです。逆順走査なら全時刻のアドバンテージを軌跡長に比例する計算量（線形時間）で一度に求められます。無限和を律儀に足す必要はなく、終端で和が自然に閉じます。

λ が決めるバイアス・分散トレードオフ

λ の両極を代入すると、GAE が既知の推定量を端点に持つ「連続な橋」であることが分かります。

λ の値	GAE の正体	性質
λ = 0	A_t = δ_t（1ステップTD）	最小分散・最大バイアス（V の誤差が直撃）
0 < λ < 1	TD誤差の指数加重和	バイアスと分散を連続的に補間
λ = 1	Σ γ^l δ_{t+l} = モンテカルロ − V(s_t)	不偏・最大分散（実測リターン − ベースライン）

λ=1 のとき和は望遠鏡和で Σ_{l} γ^l r_{t+l} − V(s_t)、すなわち「実測リターン − ベースライン」に一致します。これは reward-to-go からベースラインを引いた形そのもので、Critic に依存しない不偏推定です。λ=0 では δ_t 単独となり、V の質に推定が完全に支配される代わりに分散は最小。λ を 0 から 1 へ動かすことは、「Critic をどれだけ信用するか」のダイヤルを回すこと と理解できます。

γ と λ の役割を混同しない

γ（割引率）は問題設定そのものを定義し、エージェントがどれだけ未来を重視するかを決めます。λ は推定量の分散低減のためのハイパーパラメータで、最適方策の定義には影響しません。両方が和の減衰 (γλ)^l に現れるため混同しがちですが、γ を下げると遠い報酬を本当に軽視する（解が変わる）のに対し、λ を下げても狙う最適方策は同じで、推定のバイアス・分散だけが変わります。実務では γ=0.99、λ=0.95 が定番の出発点です。

ベースラインとしての価値関数：なぜ不偏か

GAE の土台にあるのが「ベースラインを引いても勾配は偏らない」という事実です。方策勾配の係数からベースライン b(s) を引いても、b が行動 a に依存しなければ追加項の期待値はゼロになります。E_a[∇log π(a|s)·b(s)] = b(s)·∇Σ_a π(a|s) = b(s)·∇1 = 0。確率の総和は常に 1 で、その勾配は 0 だからです。つまり ベースラインは勾配の向きを変えず、分散だけを動かせる自由なノブ です。

分散を最小化する最適ベースラインは厳密には価値とは少し異なりますが、状態価値 V(s) が良い近似であり、これを引いたものがアドバンテージになります。GAE は単一ステップのこの構図を 多ステップへ一般化 したものと位置づけられます。価値関数を Critic として近似し、その出力で TD誤差 δ を組み、指数加重で混ぜる。

V の品質が悪いと λ を上げざるを得ない

GAE のバイアスは価値関数 V の誤差から来ます。V がまだ未学習で不正確な序盤は、λ を小さくすると δ のバイアスがそのまま乗って学習が歪みます。逆に V が十分良くなれば λ を下げて分散を積極的に削れます。Critic の損失（典型的には GAE から復元した returns を標的にした回帰）と Actor の更新は相互依存しており、V が崩れると δ が崩れ、アドバンテージ全体が崩れる連鎖に注意が必要です。

PPO での実務的な扱い

GAE は単独の手法ではなく、PPO の標準的な前処理として使われます。1つのバッチで複数エポックの更新を回す PPO では、アドバンテージの分散が小さいほどクリップ目的が安定します。実装上の定番処理を押さえておきます。

処理	目的	注意点
GAEでアドバンテージを計算	係数の分散を λ で抑える	終端フラグで価値のブートストラップを止める
アドバンテージの正規化	バッチ内で平均0・分散1にスケール	更新の大きさを安定させる経験則
returns = adv + V を Critic 標的に	価値回帰の教師信号を作る	GAE と整合した標的になる
旧方策の V でアドバンテージ固定	オンポリシー前提を保つ	更新中に再計算しない

アドバンテージの正規化（バッチ内で標準化）は理論的必然ではありませんが、スケールを揃えることで学習率（最適化の調整と関連）に対する感度を下げ、実用上の安定に大きく効きます。GAE で求めたアドバンテージに V を足し戻した returns を Critic の回帰標的にすると、Actor と Critic が同じ推定量を共有でき整合が取れます。

まとめ

概念	解決した問題	核心アイデア
TD誤差 δ	1ステップの相対評価	r + γV(s') − V(s) で残差を測る
k ステップ推定	実測と V の配分	望遠鏡和で δ の和に畳める
GAE	単一 k は一長一短	全 k を (γλ)^l で指数加重平均
λ	バイアス分散の調律	0で1ステップTD・1でモンテカルロ
価値ベースライン	勾配の分散過大	不偏のまま分散だけ低減

GAE の要点は、「Critic をどれだけ信用するか」という連続的な選択を λ ひとつに集約し、TD誤差の指数加重和という線形時間で計算できる形に落とした ことにあります。λ を回せば1ステップTDからモンテカルロまでを滑らかに行き来でき、価値関数の成熟度に応じて分散を削れます。この安定したアドバンテージ推定が、PPO や RLHF・DPO で LLM のアライメントを支える土台になっています。バイアスと分散の一般論を強化学習の推定問題に持ち込んだ実例として読むと、設計の必然性がより深く見通せます。

アドバンテージ推定（GAE）と分散低減

なぜアドバンテージ推定が学習の質を決めるのか

出発点：k ステップアドバンテージ

GAE：すべての k を指数加重で混ぜる

λ が決めるバイアス・分散トレードオフ

ベースラインとしての価値関数：なぜ不偏か

PPO での実務的な扱い

まとめ

アドバンテージ推定（GAE）と分散低減を実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点