GRPO/RLVRと検証可能報酬による推論強化
価値関数を捨てて学習を軽くし、答え合わせだけで推論力を伸ばす最新手法の原理がわかります。GRPOの群相対優位とRLVRの設計を、PPOとの差分から内部まで理解できます。
- 1.GRPOは同じ問題への複数解答を1グループとして生成し、その報酬を群内で標準化したものをアドバンテージに使う。これによりPPOのクリティック(価値関数)を完全に省ける。
- 2.RLVRは報酬モデルを学習せず、正解照合や単体テスト合格など機械的に検証できる規則を報酬源にする。報酬ハッキングが起きにくく、数学・コードで推論能力を直接伸ばせる。
- 3.PPOとの本質的な差はクリティック不要によるメモリ・実装の軽量化で、クリップ目的とKL正則化(参照方策への引き戻し)は継承する。
なぜクリティックを捨てるのか
方策勾配法と PPO で見たとおり、現代の強化学習による LLM 調整は PPO が事実上の標準でした。PPO はアドバンテージ A(s,a) = Q(s,a) − V(s) を学習信号に使うため、状態価値 V(s) を推定する クリティック(価値関数ネットワーク) を方策とは別に持ちます。これが LLM の文脈では重い負担になります。
クリティックは方策とほぼ同規模のもう一つの大型モデルで、勾配を流すために常駐させると GPU メモリがほぼ倍 になります。しかも LLM の報酬は通常、生成が完全に終わってから一度だけ与えられる(系列末尾のスパース報酬)ため、各トークン位置の V(s_t) を正確に当てるクリティックの学習自体が難しく不安定です。「価値を当てる」という補助課題のために、本来の目的より重いコストを払っている——この構図を解消するのが GRPO(Group Relative Policy Optimization) です。
アドバンテージが欲しいのは「この行動が平均と比べて良かったか」を知りたいからでした。PPOはその「平均」をクリティック V(s) の予測で求めます。しかし平均が欲しいだけなら、同じ問題に対して実際に複数回サンプリングし、その実測報酬の平均を基準(ベースライン)にしてもよい。クリティックを「もう一つのネットワーク」ではなく「サンプル統計」で置き換える、というのがGRPOの出発点です。
群相対優位(group-relative advantage)
GRPO の手順は明快です。一つのプロンプト q(例えば数学問題)に対し、現在の方策から G 個の解答 o_1, ..., o_G をまとめてサンプリングします。これを1グループと呼びます。各解答に報酬 r_i を与えたら、グループ内で報酬を標準化したものをそのままアドバンテージにします。
A_i = (r_i − mean(r_1..r_G)) / std(r_1..r_G)
mean : グループG個の報酬の平均(=ベースライン)
std : グループ内の標準偏差(スケール正規化)
平均を引くことが PPO のベースラインに相当し、勾配の分散を下げます。標準偏差で割るのは報酬スケールを問題ごとに正規化し、易しい問題と難しい問題が同じ重みで学習に効くようにするためです。トークン単位のクレジット割り当ては行わず、一つの解答に属する全トークンが同じアドバンテージ A_i を共有 します(系列全体を一つの行動とみなす)。
ベースラインは「行動に依存しなければ勾配を偏らせない」という性質を持ちます。グループ平均 mean(r) はそのグループ全体の統計量であり、個々の解答 o_i の選び方には依存しません。したがってこれを引いても方策勾配の期待値は変わらず、不偏性を保ったまま分散だけを下げる正当なベースラインになります。クリティックが担っていた役割を、追加のネットワークなしにモンテカルロ推定で代替しているわけです。
目的関数は PPO のクリップ構造をそのまま受け継ぎます。確率比 r_i,t(θ) = π_θ(o_i,t | q, o_i,<t) / π_θold(o_i,t | q, o_i,<t) をトークンごとに作り、群相対アドバンテージ A_i を掛けてクリップします(o_i,<t の < はトークン位置 t 未満を表す添字)。
L = E[ (1/G) Σ_i (1/|o_i|) Σ_t min( ratio·A_i, clip(ratio, 1−ε, 1+ε)·A_i ) ] − β·KL
ratio : 上記の確率比 r_i,t(θ)
ε : クリップ幅(PPOと同じ役割)
β : KL正則化の強さ
RLVR:検証可能報酬で報酬モデルを捨てる
GRPO がクリティックを捨てたのに対し、RLVR(Reinforcement Learning with Verifiable Rewards) は報酬の出どころそのものを変えます。RLHF と DPO では人間の選好データから 報酬モデル を学習し、それを採点者に使いました。RLVR はこの学習された報酬モデルを使わず、機械的に正誤を検証できる規則 を報酬源にします。
r(o) = 1 (検証に合格:最終解が正解と一致 / 全テスト通過 / 形式が妥当)
r(o) = 0 (不合格)
具体的には、数学なら最終解を正解とパターン照合し、コードなら単体テストを実行して合否を取り、形式制約なら出力フォーマットを検証します。報酬が 規則ベースで決定的 なのが核心です。
学習された報酬モデルは近似器なので、方策が「報酬モデルの穴」を突く出力(人間には無意味だが高スコアを得る出力)を見つけて暴走する報酬ハッキングが起きやすい。RLVRの検証器は正解照合やテスト実行そのものなので、騙すには本当に正しい答えを出すしかありません。報酬が真の目的(正答)とずれない(報酬とゴールの整合が高い)ため、長時間学習しても崩壊しにくく、これが数学・コードのような検証可能ドメインで推論能力が素直に伸びる最大の理由です。
RLVRは「答えを自動で検証できる」ことが大前提です。エッセイの良さ、対話の自然さ、要約の質といった正解が一意に決まらないタスクには直接使えません。検証器が二値(合格/不合格)でスパースなため、難問では1グループの解答が全滅して報酬が全て0になると勾配が消える(学習信号がなくなる)問題もあります。RLVRが万能ではなく、検証可能ドメインに特化した道具である点は誤解されやすい注意点です。
GRPO と RLVR は直交する選択で、組み合わせると「クリティックなし・報酬モデルなし」の軽量な構成になります。同じ問題に複数回挑ませ(GRPO)、各解答を検証器で答え合わせし(RLVR)、群内で標準化したアドバンテージで方策を更新する——この単純なループが、長い 思考連鎖(CoT) を生成しながら自己検証・後戻りする推論方策を獲得させます。
KL正則化:参照方策から離れすぎない
検証可能報酬だけを追うと、方策は報酬を上げるために流暢さや汎用能力を犠牲にして暴走しがちです。これを防ぐのが KL 正則化 で、学習開始時の方策(教師ありファインチューニング済みモデル)を 参照方策 π_ref として固定し、現在の方策がそこから離れすぎないよう罰則を掛けます。
罰則 = β · KL[ π_θ || π_ref ]
β : 正則化の強さ(大きいほど参照に強く引き戻す)
π_ref : 固定された参照方策(更新しない)
KL ダイバージェンスは二つの確率分布の隔たりで、これを目的に足すことで「報酬は上げたいが、参照方策から大きく逸脱した出力は罰する」という綱引きが働きます。PPO のクリップが「1ステップの更新幅」を制限するのに対し、KL 項は「学習全体を通じた参照からの絶対的な距離」を制限する、という役割分担です。
PPOではKL正則化を報酬に組み込む(報酬から β·log(π_θ/π_ref) を引く)実装が一般的ですが、GRPOは目的関数に直接KL項を足し、しかも分散の小さい不偏なKL推定量(k3推定量)を使います。KL ≈ π_ref/π_θ − log(π_ref/π_θ) − 1 という形で、必ず非負になりトークンごとに評価できます。報酬経由ではなく勾配に直接KLを混ぜることで、正則化の効きが安定します。
PPOとの設計差まとめ
| 観点 | PPO(従来) | GRPO/RLVR |
|---|---|---|
| アドバンテージ | クリティック V(s) で推定 | 群内の報酬を標準化(サンプル統計) |
| 価値関数 | 必要(方策と同規模の別モデル) | 不要(メモリ・実装が軽い) |
| クレジット割当 | トークン位置ごとに価値で配分 | 解答全体に同一アドバンテージ |
| 報酬源 | 学習された報酬モデルが多い | RLVRは規則ベースの検証器 |
| 報酬ハッキング | 報酬モデルの穴を突かれやすい | 検証器は騙しにくく頑健 |
| クリップ目的 | あり | 継承(同じ役割) |
| KL正則化 | 報酬に組み込む実装が主流 | 目的に直接加算・k3推定量 |
GRPO/RLVR の要点は、PPO の安定化機構(クリップと KL)は残しつつ、二つの重い補助物——クリティックと学習報酬モデル——を「サンプルの群統計」と「機械的検証」で置き換えたことに尽きます。クリティックを群平均ベースラインに、報酬モデルを検証器に差し替えることで、メモリ半減と報酬の頑健性を同時に得る。検証可能ドメインに限られるという制約と引き換えに、数学やコードでの推論能力を直接強化できるのが、この設計が 推論時スケーリングや PRM と並んで近年の推論強化の中核を担う理由です。
AI/機械学習 Article
GRPO/RLVRと検証可能報酬による推論強化を実務で読む
TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。
解決すること
強化学習
比較で見る軸
難易度: advanced / カテゴリ: AI/機械学習 / タグ数: 6
導入後に効く点
RLVRは報酬モデルを学習せず、正解照合や単体テスト合格など機械的に検証できる規則を報酬源にする。報酬ハッキングが起きにくく、数学・コードで推論能力を直接伸ばせる。
先に潰すリスク
用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。
- 難易度
- advanced
- カテゴリ
- AI/機械学習
- タグ数
- 6
判断チェックリスト
- 自社の用途が「強化学習 / GRPO」に近いか確認する。
- 強みである「GRPOは同じ問題への複数解答を1グループとして生成し、その報酬を群内で標準化したものをアドバンテージに使う。これによりPPOのクリティック(価値関数)を完全に省ける。」が本当に評価軸になるか確認する。
- 注意点の「用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。」を運用で吸収できるか確認する。
- 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
- 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
- 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。