強化学習の数理:ベルマン方程式と価値関数
強化学習の「なぜ学べるのか」を支える背骨が価値関数とベルマン方程式。割引報酬・状態価値・行動価値から最適方程式と価値反復まで、原理を一本の線でつなぎます。
- 1.強化学習はMDP(状態・行動・遷移確率・報酬・割引率)として定式化され、価値関数は「ある状態以降で得られる割引報酬の期待値」を表します。
- 2.ベルマン期待方程式は価値を「即時報酬+次状態の価値」に再帰分解し、ベルマン最適方程式はその中で最大の行動を選ぶ形になります。
- 3.割引率が1未満なら無限和は収束し、ベルマン作用素が縮小写像になるため、価値反復は唯一の最適価値へ確実に収束します。
なぜ「価値関数」が必要なのか
強化学習の目的は、長期的な報酬の合計を最大化する方策を見つけることです(枠組み全体は 強化学習 を参照)。しかし「今の行動」が「将来の報酬」に効いてくるため、目先の報酬だけ見ても良し悪しは判断できません。そこで導入するのが 価値関数 です。価値関数は「この状態(あるいはこの状態でこの行動)から始めると、最終的にどれだけの報酬が見込めるか」を数値化します。この一つの量に将来の見通しを畳み込むことで、逐次的な意思決定を扱える形に落とし込めるのが核心です。
MDPとしての定式化
強化学習の標準的な土台は マルコフ決定過程(MDP) です。MDPは5つ組 (S, A, P, R, γ) で定義されます。
S : 状態の集合
A : 行動の集合
P : 遷移確率 P(s'|s,a) = 状態sで行動aをとったとき次状態がs'になる確率
R : 報酬関数 R(s,a) = その遷移で得られる即時報酬(の期待値)
γ : 割引率 0 ≤ γ < 1 (将来報酬をどれだけ重視するか)
ここで決定的に重要なのが マルコフ性 です。次状態の確率分布が「現在の状態と行動」だけで決まり、過去の履歴には依存しない、という仮定です。これにより「今の状態」が将来を予測するための十分な情報になり、価値を状態の関数として定義できます。
エージェントの振る舞いは 方策 π(a|s)(状態 s で行動 a を選ぶ確率)で表します。学習とは、この方策を改善していく営みにほかなりません。
割引報酬とその収束
時刻 t 以降に実際に得られる報酬の総和を リターン と呼び、割引率で重み付けします。
G_t = R_t + γ·R_{t+1} + γ^2·R_{t+2} + ... = Σ_{k=0}^∞ γ^k · R_{t+k}
なぜ割引するのか。実用上は「遠い未来の不確実な報酬より、近い報酬を重視したい」という直感がありますが、数理的にはより本質的な理由があります。無限に続くタスクでもリターンが有限に収まることを保証するため です。
報酬が |R| ≤ R_max で有界なら、リターンは等比級数で上から押さえられます。|G_t| ≤ R_max·(1 + γ + γ^2 + ...) = R_max/(1−γ)。γ が 1 未満である限りこの和は収束し、価値関数は必ず有限値になります。逆に γ = 1 だと無限和が発散しうるため、終端のあるタスク(エピソード型)でしか安全に使えません。
状態価値と行動価値
価値関数には2種類あります。どちらも方策 π のもとでのリターンの 期待値 として定義されます。
状態価値 V^π(s) = E_π[ G_t | S_t = s ]
状態sから方策πに従ったとき、将来見込める割引報酬の期待値
行動価値 Q^π(s,a) = E_π[ G_t | S_t = s, A_t = a ]
状態sで「まず行動aをとり」、以降は方策πに従ったときの期待値
両者は次の関係で結ばれます。状態価値は、その状態で取りうる各行動の行動価値を、方策の確率で平均したものです。
V^π(s) = Σ_a π(a|s) · Q^π(s,a)
Q は「行動を一つ固定して評価する」ため、方策の改善に直接使えるのが利点です。各状態で Q が最大の行動を選べば、それだけで方策を良くできます。
ベルマン期待方程式
ここからが数理の心臓部です。リターンの定義 G_t = R_t + γ·G_{t+1} という 再帰構造 に注目すると、価値関数自身が自分を使った方程式を満たします。これが ベルマン期待方程式 です。
V^π(s) = Σ_a π(a|s) Σ_{s'} P(s'|s,a) [ R(s,a) + γ·V^π(s') ]
読み解くとこうです。状態 s の価値は、「即時報酬 R(s,a)」と「割引した次状態の価値 γ·V^π(s')」の和を、行動と次状態の確率で期待値を取ったものに等しい。つまり 価値を「いま」と「次の一歩先の価値」に一段だけ分解 しているわけです。無限に続くリターンを、たった一段の関係式に圧縮できるのがマルコフ性の恩恵です。
この方程式は、状態数だけの未知数 V^π(s) をもつ 連立一次方程式 とみなせます。方策 π が与えられていれば原理的には解けて、これを 方策評価 と呼びます。
ベルマン最適方程式
評価から 最適化 へ進みます。すべての方策の中で各状態の価値を最大にする価値関数を V*、Q* と書き、最適価値関数 と呼びます。これらが満たすのが ベルマン最適方程式 です。期待方策の「行動についての平均(Σ_a π)」が「最大化(max_a)」に置き換わるのが決定的な違いです。
V*(s) = max_a Σ_{s'} P(s'|s,a) [ R(s,a) + γ·V*(s') ]
Q*(s,a) = Σ_{s'} P(s'|s,a) [ R(s,a) + γ·max_{a'} Q*(s',a') ]
最適方策はこの Q* から即座に取り出せます。各状態で Q*(s,a) が最大の行動を選ぶ 貪欲(グリーディ)方策 が最適になります。
π*(s) = argmax_a Q*(s,a)
両者の構造はほぼ同じで、違いは「行動をどう集約するか」だけです。期待方程式は 与えられた方策に従って平均 を取り、最適方程式は 最良の行動を選ぶ(max)。この max が入るために最適方程式は非線形になり、連立一次方程式としては解けません。だからこそ反復計算が必要になります。
| 観点 | ベルマン期待方程式 | ベルマン最適方程式 |
|---|---|---|
| 対象 | ある方策πの価値 V^π / Q^π | 最適価値 V* / Q* |
| 行動の集約 | 方策の確率で平均(Σ_a π) | 最良行動を選択(max_a) |
| 線形性 | 線形(連立一次方程式で解ける) | 非線形(max のため直接は解けない) |
| 用途 | 方策評価(与えた方策の良さを測る) | 最適方策の導出 |
価値反復:縮小写像としての原理
ベルマン最適方程式は直接解けませんが、右辺を更新規則として繰り返し適用する ことで解に近づけます。これが 価値反復(Value Iteration) です。
V_{k+1}(s) ← max_a Σ_{s'} P(s'|s,a) [ R(s,a) + γ·V_k(s') ]
任意の初期値 V_0 から始めても、この更新を繰り返すと V_k は V* に収束します。なぜ確実に収束すると言い切れるのか。鍵は、この更新を一つの写像 T(ベルマン最適作用素)とみなしたとき、T が γ-縮小写像 になる点にあります。
任意の2つの価値関数 U, V に作用素 T を適用すると、両者の最大差(無限大ノルムでの距離)が必ず γ 倍以下に縮みます。||T·U − T·V||∞ ≤ γ·||U − V||∞。更新のたびに解との距離が γ 倍ずつ縮むため、γ が 1 未満である限り誤差は指数的にゼロへ向かいます。バナッハの不動点定理により、不動点(T·V = V を満たす V)はただ一つだけ存在し、それが V*。初期値に依らず一意の最適価値へ収束することが、ここで数学的に保証されます。
ここでも割引率 γ が二重に効いています。第一に無限和のリターンを有限に収束させ、第二にベルマン作用素を縮小写像にして反復計算の収束を保証する。γ が 1 未満であることは、強化学習の理論全体を成り立たせる前提なのです。
価値反復は遷移確率 P と報酬 R を 既知 とする動的計画法です。現実では環境のモデルが未知なことが多く、その場合は経験から価値を推定するQ学習やSARSAなどの モデルフリー 手法を使います。また状態空間が巨大だと全状態を表に持てず、価値関数をニューラルネットなどで 近似 する必要が出てきます。深層強化学習はこの近似版で、関数近似のもとでは縮小写像の保証が崩れ、収束が不安定になりうる点が難所です(最適化の土台は 勾配降下法)。
まとめ
| 概念 | 役割 | 核心の式(の骨格) |
|---|---|---|
| MDP | 問題の定式化(マルコフ性が前提) | (S, A, P, R, γ) |
| 割引リターン | 将来報酬の合計(有限性を保証) | G_t = Σ γ^k R_{t+k} |
| 価値関数 | 状態/行動の長期的な良さ | V^π, Q^π = E_π[G_t] |
| ベルマン期待方程式 | 価値を一段の再帰に分解(方策評価) | V^π = E[R + γV^π](線形) |
| ベルマン最適方程式 | 最適価値の特徴づけ | V* = max_a E[R + γV*](非線形) |
| 価値反復 | 縮小写像の反復で V* を求める | V_{k+1} ← T·V_k → V* |
ベルマン方程式の本質は、「無限に続く将来の報酬」を「即時報酬+次状態の価値」というたった一段の再帰に畳み込む ことにあります。期待方程式が方策の評価を、最適方程式が最適性の特徴づけを担い、割引率がリターンの有限性と反復計算の収束を二重に支える。この骨格を押さえれば、Q学習・方策勾配・そして RLHF と DPO で使われるPPOまで、現代の強化学習アルゴリズムが「ベルマン方程式をどう近似的に解いているか」という一つの視点で見通せるようになります。
AI/機械学習 Article
強化学習の数理:ベルマン方程式と価値関数を実務で読む
TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。
解決すること
強化学習
比較で見る軸
難易度: advanced / カテゴリ: AI/機械学習 / タグ数: 5
導入後に効く点
ベルマン期待方程式は価値を「即時報酬+次状態の価値」に再帰分解し、ベルマン最適方程式はその中で最大の行動を選ぶ形になります。
先に潰すリスク
用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。
- 難易度
- advanced
- カテゴリ
- AI/機械学習
- タグ数
- 5
判断チェックリスト
- 自社の用途が「強化学習 / ベルマン方程式」に近いか確認する。
- 強みである「強化学習はMDP(状態・行動・遷移確率・報酬・割引率)として定式化され、価値関数は「ある状態以降で得られる割引報酬の期待値」を表します。」が本当に評価軸になるか確認する。
- 注意点の「用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。」を運用で吸収できるか確認する。
- 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
- 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
- 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。