GRPO/RLVRと検証可能報酬による推論強化

なぜクリティックを捨てるのか

方策勾配法と PPO で見たとおり、現代の強化学習による LLM 調整は PPO が事実上の標準でした。PPO はアドバンテージ A(s,a) = Q(s,a) − V(s) を学習信号に使うため、状態価値 V(s) を推定する クリティック（価値関数ネットワーク） を方策とは別に持ちます。これが LLM の文脈では重い負担になります。

クリティックは方策とほぼ同規模のもう一つの大型モデルで、勾配を流すために常駐させると GPU メモリがほぼ倍 になります。しかも LLM の報酬は通常、生成が完全に終わってから一度だけ与えられる（系列末尾のスパース報酬）ため、各トークン位置の V(s_t) を正確に当てるクリティックの学習自体が難しく不安定です。「価値を当てる」という補助課題のために、本来の目的より重いコストを払っている——この構図を解消するのが GRPO（Group Relative Policy Optimization） です。

アドバンテージの本質に立ち返る

アドバンテージが欲しいのは「この行動が平均と比べて良かったか」を知りたいからでした。PPOはその「平均」をクリティック V(s) の予測で求めます。しかし平均が欲しいだけなら、同じ問題に対して実際に複数回サンプリングし、その実測報酬の平均を基準（ベースライン）にしてもよい。クリティックを「もう一つのネットワーク」ではなく「サンプル統計」で置き換える、というのがGRPOの出発点です。

群相対優位（group-relative advantage）

GRPO の手順は明快です。一つのプロンプト q（例えば数学問題）に対し、現在の方策から G 個の解答 o_1, ..., o_G をまとめてサンプリングします。これを1グループと呼びます。各解答に報酬 r_i を与えたら、グループ内で報酬を標準化したものをそのままアドバンテージにします。

A_i = (r_i − mean(r_1..r_G)) / std(r_1..r_G)
   mean : グループG個の報酬の平均（=ベースライン）
   std  : グループ内の標準偏差（スケール正規化）

平均を引くことが PPO のベースラインに相当し、勾配の分散を下げます。標準偏差で割るのは報酬スケールを問題ごとに正規化し、易しい問題と難しい問題が同じ重みで学習に効くようにするためです。トークン単位のクレジット割り当ては行わず、一つの解答に属する全トークンが同じアドバンテージ A_i を共有 します（系列全体を一つの行動とみなす）。

なぜグループ平均が正しいベースラインになるのか

ベースラインは「行動に依存しなければ勾配を偏らせない」という性質を持ちます。グループ平均 mean(r) はそのグループ全体の統計量であり、個々の解答 o_i の選び方には依存しません。したがってこれを引いても方策勾配の期待値は変わらず、不偏性を保ったまま分散だけを下げる正当なベースラインになります。クリティックが担っていた役割を、追加のネットワークなしにモンテカルロ推定で代替しているわけです。

目的関数は PPO のクリップ構造をそのまま受け継ぎます。確率比 r_i,t(θ) = π_θ(o_i,t | q, o_i,<t) / π_θold(o_i,t | q, o_i,<t) をトークンごとに作り、群相対アドバンテージ A_i を掛けてクリップします（o_i,<t の < はトークン位置 t 未満を表す添字）。

L = E[ (1/G) Σ_i (1/|o_i|) Σ_t min( ratio·A_i, clip(ratio, 1−ε, 1+ε)·A_i ) ] − β·KL
   ratio : 上記の確率比 r_i,t(θ)
   ε     : クリップ幅（PPOと同じ役割）
   β     : KL正則化の強さ

RLVR：検証可能報酬で報酬モデルを捨てる

GRPO がクリティックを捨てたのに対し、RLVR（Reinforcement Learning with Verifiable Rewards） は報酬の出どころそのものを変えます。RLHF と DPO では人間の選好データから 報酬モデル を学習し、それを採点者に使いました。RLVR はこの学習された報酬モデルを使わず、機械的に正誤を検証できる規則 を報酬源にします。

r(o) = 1  （検証に合格：最終解が正解と一致 / 全テスト通過 / 形式が妥当）
r(o) = 0  （不合格）

具体的には、数学なら最終解を正解とパターン照合し、コードなら単体テストを実行して合否を取り、形式制約なら出力フォーマットを検証します。報酬が 規則ベースで決定的 なのが核心です。

報酬ハッキングが起きにくい理由

学習された報酬モデルは近似器なので、方策が「報酬モデルの穴」を突く出力（人間には無意味だが高スコアを得る出力）を見つけて暴走する報酬ハッキングが起きやすい。RLVRの検証器は正解照合やテスト実行そのものなので、騙すには本当に正しい答えを出すしかありません。報酬が真の目的（正答）とずれない（報酬とゴールの整合が高い）ため、長時間学習しても崩壊しにくく、これが数学・コードのような検証可能ドメインで推論能力が素直に伸びる最大の理由です。

適用範囲の限界

RLVRは「答えを自動で検証できる」ことが大前提です。エッセイの良さ、対話の自然さ、要約の質といった正解が一意に決まらないタスクには直接使えません。検証器が二値（合格/不合格）でスパースなため、難問では1グループの解答が全滅して報酬が全て0になると勾配が消える（学習信号がなくなる）問題もあります。RLVRが万能ではなく、検証可能ドメインに特化した道具である点は誤解されやすい注意点です。

GRPO と RLVR は直交する選択で、組み合わせると「クリティックなし・報酬モデルなし」の軽量な構成になります。同じ問題に複数回挑ませ（GRPO）、各解答を検証器で答え合わせし（RLVR）、群内で標準化したアドバンテージで方策を更新する——この単純なループが、長い思考連鎖（CoT）を生成しながら自己検証・後戻りする推論方策を獲得させます。

KL正則化：参照方策から離れすぎない

検証可能報酬だけを追うと、方策は報酬を上げるために流暢さや汎用能力を犠牲にして暴走しがちです。これを防ぐのが KL 正則化 で、学習開始時の方策（教師ありファインチューニング済みモデル）を 参照方策 π_ref として固定し、現在の方策がそこから離れすぎないよう罰則を掛けます。

罰則 = β · KL[ π_θ || π_ref ]
   β    : 正則化の強さ（大きいほど参照に強く引き戻す）
   π_ref : 固定された参照方策（更新しない）

KL ダイバージェンスは二つの確率分布の隔たりで、これを目的に足すことで「報酬は上げたいが、参照方策から大きく逸脱した出力は罰する」という綱引きが働きます。PPO のクリップが「1ステップの更新幅」を制限するのに対し、KL 項は「学習全体を通じた参照からの絶対的な距離」を制限する、という役割分担です。

GRPOのKL推定はPPOと少し違う

PPOではKL正則化を報酬に組み込む（報酬から β·log(π_θ/π_ref) を引く）実装が一般的ですが、GRPOは目的関数に直接KL項を足し、しかも分散の小さい不偏なKL推定量（k3推定量）を使います。KL ≈ π_ref/π_θ − log(π_ref/π_θ) − 1 という形で、必ず非負になりトークンごとに評価できます。報酬経由ではなく勾配に直接KLを混ぜることで、正則化の効きが安定します。

PPOとの設計差まとめ

観点	PPO（従来）	GRPO/RLVR
アドバンテージ	クリティック V(s) で推定	群内の報酬を標準化（サンプル統計）
価値関数	必要（方策と同規模の別モデル）	不要（メモリ・実装が軽い）
クレジット割当	トークン位置ごとに価値で配分	解答全体に同一アドバンテージ
報酬源	学習された報酬モデルが多い	RLVRは規則ベースの検証器
報酬ハッキング	報酬モデルの穴を突かれやすい	検証器は騙しにくく頑健
クリップ目的	あり	継承（同じ役割）
KL正則化	報酬に組み込む実装が主流	目的に直接加算・k3推定量

GRPO/RLVR の要点は、PPO の安定化機構（クリップと KL）は残しつつ、二つの重い補助物——クリティックと学習報酬モデル——を「サンプルの群統計」と「機械的検証」で置き換えたことに尽きます。クリティックを群平均ベースラインに、報酬モデルを検証器に差し替えることで、メモリ半減と報酬の頑健性を同時に得る。検証可能ドメインに限られるという制約と引き換えに、数学やコードでの推論能力を直接強化できるのが、この設計が推論時スケーリングや PRM と並んで近年の推論強化の中核を担う理由です。

GRPO/RLVRと検証可能報酬による推論強化

なぜクリティックを捨てるのか

群相対優位（group-relative advantage）

RLVR：検証可能報酬で報酬モデルを捨てる

KL正則化：参照方策から離れすぎない

PPOとの設計差まとめ

GRPO/RLVRと検証可能報酬による推論強化を実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点