報酬モデルの学習とブラッドリー・テリーモデル
「どっちが良い?」の選好データから、なぜスカラー報酬が学べるのか。ブラッドリー・テリーモデルの原理と、報酬ハッキングを防ぐKL制約まで、RLHFの心臓部を数式の意味から理解できます。
- 1.報酬モデルは選好ペア(勝ち応答・負け応答)を、ブラッドリー・テリーモデルに基づくロジスティック損失 -log σ(r_w − r_l) で学習する。学ぶのはスコア差だけで、絶対値には意味がない。
- 2.報酬は学習データの分布の外では信頼できない。方策がその穴を突く現象が報酬ハッキング(過最適化)で、参照モデルへのKL制約がブレーキとして働く。
- 3.RLHFでは報酬モデルが自動採点者となり、PPOなどでKL制約付きに報酬を最大化する。報酬モデルの質と偏りがアライメントの上限を決める。
「良い応答」を損失で書けない問題
LLM のアライメントが難しい根本理由は、「親切さ」「無害さ」「指示への忠実さ」に 正解ラベルが存在しない ことにあります。次トークン予測は尤もらしさを最適化するだけで、人間にとっての有用性は保証しません(RLHF と DPO 参照)。ならば「この応答の良さは 8.3 点」と教師信号を与えればよいのでしょうか。これは破綻します。人間は絶対値スコアを安定して付けられず、採点者ごと・その日ごとに基準がぶれるからです。
そこで発想を変えます。絶対評価をやめ、「同じプロンプトに対する応答 A と B、どちらが好ましいか」という相対比較(選好)だけを集める。二択なら人間も安定して答えられます。問題はここから——選好という離散的な「勝ち負け」の集まりから、どうやって連続的なスカラー報酬 r(x,y) を学習するのか。その橋渡しをするのが ブラッドリー・テリーモデル です。
ブラッドリー・テリーモデル:勝ち負けを確率に変える
ブラッドリー・テリーモデルは、もともとスポーツやチェスのレーティング(イロレーティングと同根)で使われてきた ペア比較の確率モデル です。各対象 i に潜在的な強さ s_i を割り当て、「i が j に勝つ確率」を強さの差で表します。
P(i が j に勝つ) = σ(s_i − s_j) = exp(s_i) / (exp(s_i) + exp(s_j))
σ(z) = 1 / (1 + exp(−z)) ロジスティック(シグモイド)関数
ここが核心です。勝つ確率は強さの差だけで決まり、絶対値には依存しません。s_i と s_j の両方に同じ定数を足しても確率は変わらない。RLHF ではこの「強さ」を報酬モデルの出力スコア r(x,y) に対応させます。同じプロンプト x に対する勝ち応答 y_w と負け応答 y_l について、人間が y_w を選ぶ確率を次のように置きます。
P(y_w ≻ y_l | x) = σ( r(x,y_w) − r(x,y_l) )
つまり報酬モデルは「各応答にスコアを付ける関数」であり、ブラッドリー・テリーは「そのスコア差を、人間の選好確率に翻訳する」リンク関数の役割を担います。構造はロジスティック回帰そのもので、入力特徴の代わりに (報酬スコアの差) をシグモイドに通していると見ると見通しがよくなります(ロジスティック回帰の数理)。
「差を確率に変える」関数は無数にありますが、シグモイドには根拠があります。各応答の真の価値に独立な極値分布(ガンベル分布)のノイズが乗っていると仮定すると、「勝つ確率」はちょうどスコア差のロジスティック関数になります。これはランダム効用モデルと呼ばれる定式化で、ブラッドリー・テリーはその特別な場合です。シグモイドは恣意的な選択ではなく、ノイズの仮定から導かれる必然です。
報酬モデルの損失関数
選好確率が決まれば、あとは最尤推定です。学習データの選好を最ももっともらしく説明するスコア関数 r を求める——負の対数尤度を最小化します。報酬モデル一般のパラメータを φ として、損失は次の一本に集約されます。
L(φ) = − E[ log σ( r_φ(x, y_w) − r_φ(x, y_l) ) ]
(x, y_w, y_l) は選好データセットからのサンプル
y_w : 人間が選んだ勝ち応答 / y_l : 負け応答
これを最小化する勾配の向きを読むと、学習の中身が見えます。σ(r_w − r_l) が 1 に近い(既に正しく順位付けできている)ペアには小さな勾配しか流れず、0.5 付近の「際どいペア」に強い学習圧がかかります。結果として 勝ち応答のスコアを押し上げ、負け応答のスコアを押し下げる よう r が調整されます。
実装上は、SFT 済みの LLM の最終層を「次トークン予測ヘッド」から「スカラー1個を出す回帰ヘッド」に差し替えて初期化するのが定番です。言語理解の重みを流用し、最後に1次元へ射影します。
ブラッドリー・テリー損失はスコア差にしか依存しないため、学習後の報酬には任意の定数オフセットの自由度が残ります。r(x,y) = 7.2 という値そのものは「良さの絶対量」ではありません。意味があるのは 同じプロンプト内での応答間の差 だけです。だから報酬モデルの出力をプロンプトをまたいで直接比較したり、固定しきい値で良否を判定したりするのは原理的に危うい。後段の最適化でも、報酬はしばしばバッチ内で平均0に正規化して使われます。
報酬ハッキングと過最適化
学習した報酬モデルは万能の採点者ではありません。あくまで 有限の選好データが覆う分布の内側でだけ 人間の好みを近似した、不完全な代理(プロキシ)です。データが薄い領域では、スコアが人間の真の評価から乖離した「穴」が必ず残ります。
方策(学習中の LLM)の役目は報酬を最大化することなので、最適化を進めると方策はこの穴を執拗に探し当てます。真の品質は上がらないのに報酬スコアだけが釣り上がる ——これが 報酬ハッキング(過最適化) です。典型例として、報酬モデルが「長い回答ほど高評価」という系統的バイアスを学んでいると、方策は中身を伴わずに冗長化していきます。グッドハートの法則——「指標が目標になると、その指標は良い指標でなくなる」——が、ここで露骨に現れます。
報酬モデルへの最適化を強めるほど代理報酬は単調に増え続けますが、人間が測る真の品質は途中で頭打ちになり、やがて低下に転じます。報酬スコアの上昇だけを見て学習を進めると、見かけ上は改善しているのに実際は劣化する、という最悪の見落としが起きます。報酬モデルのスコアは目的そのものではなく、信頼できる範囲が限られた代理量だと常に意識する必要があります。
KL 制約というブレーキ
過最適化への標準的な歯止めが、参照モデルへの KL ペナルティ です。最適化の目的関数は、素の報酬最大化ではなく次の形を取ります。
目的 = E[ r(x,y) ] − β · KL( π_θ(y|x) ‖ π_ref(y|x) )
π_θ : 学習中の方策(現在の LLM)
π_ref : 参照モデル(SFT 直後で固定)
β : KL ペナルティの強さ
第2項は「方策が参照モデルから確率分布として離れるほど罰を与える」項です。報酬モデルが信頼できるのは参照モデルが生成しうる応答の近傍だけなので、そこから遠ざかること自体にコストを課す ことで、方策が報酬の穴へ逃げ込むのを抑えます。β が大きいほど参照モデルへの拘束が強く(安全・保守的)、小さいほど報酬に大胆に従います(過最適化のリスク増)。
つまり KL 制約は単なる正則化ではなく、「報酬モデルを信用してよい領域内に方策を留める」ための信頼領域 として機能します。報酬モデルの不完全さと、それを突こうとする最適化圧との綱引きを、β 一つで調停しているわけです。β をどう設定するかは、報酬を伸ばすか暴走を防ぐかの直接のトレードオフになります。
RLHF パイプラインでの位置づけ
報酬モデルは RLHF 全体の中で「人間の選好を機械可読なスカラー信号に固定する」中間表現として働きます。標準的な3段構成での役割は次の通りです。
| 段階 | 目的 | 報酬モデルの関与 |
|---|---|---|
| SFT(教師あり調整) | お手本の模倣で対話の土台を作る | なし。後段の参照モデル π_ref の出発点になる |
| 報酬モデル学習 | 選好ペアからスコア関数 r を学習 | 本体。Bradley-Terry 損失で訓練する |
| 方策最適化(PPO 等) | KL 制約下で報酬を最大化 | 自動採点者。生成応答にスコアを返す |
第3段では、方策が応答を生成するたびに報酬モデルがスコアを返し、それを報酬信号として強化学習で方策を更新します。ここで使う定番が PPO で、生成(ロールアウト)とスコアリングを学習ループ内で回す オンライン な最適化です(仕組みは 方策勾配と PPO、強化学習の枠組みは 強化学習 を参照)。報酬モデルが「採点」、PPO が「採点を最大化する学習」と役割分担しています。
一度学習した報酬モデルは推論時にも転用できます。代表が Best-of-N サンプリングで、N 個の応答を生成して報酬モデルが最高スコアの1つを選ぶだけで、方策を一切再学習せずに品質を底上げできます。さらに最終応答だけでなく推論の途中ステップを採点する派生もあり、これは プロセス報酬モデル として別立ての設計になっています。
まとめ
| 論点 | 要点 |
|---|---|
| 何を学ぶか | 選好ペアから応答のスカラー報酬 r(x,y) を学習。学ぶのは差だけ |
| 数学的な核 | Bradley-Terry でスコア差をシグモイドに通し、選好確率の最尤推定 |
| 損失 | −log σ(r_w − r_l)。ロジスティック回帰と同型 |
| 落とし穴 | 報酬ハッキング/過最適化。代理報酬が上がっても真の品質は下がりうる |
| 対策 | 参照モデルへの KL 制約で、信頼できる領域に方策を留める |
| 上限 | 選好データの質と偏りがアライメントの天井を決める |
報酬モデルは「正解ラベルの無い価値判断を、選好という相対比較を経てスカラー報酬に固定する装置」です。その心臓部にあるブラッドリー・テリーモデルは、勝ち負けをスコア差のロジスティック関数に翻訳するだけのシンプルな確率モデルでありながら、人間の好みを学習可能な損失に変換します。一方でその報酬は本質的に不完全な代理であり、過最適化と KL 制約のせめぎ合いを抜きには使えません。RLHF を「報酬モデルで好みを写し取り、KL 制約付きでそれを最大化する」一連の流れとして捉えると、各部品の役割と限界が一本の線でつながります。
AI/機械学習 Article
報酬モデルの学習とブラッドリー・テリーモデルを実務で読む
TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。
解決すること
報酬モデル
比較で見る軸
難易度: advanced / カテゴリ: AI/機械学習 / タグ数: 5
導入後に効く点
報酬は学習データの分布の外では信頼できない。方策がその穴を突く現象が報酬ハッキング(過最適化)で、参照モデルへのKL制約がブレーキとして働く。
先に潰すリスク
用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。
- 難易度
- advanced
- カテゴリ
- AI/機械学習
- タグ数
- 5
判断チェックリスト
- 自社の用途が「報酬モデル / RLHF」に近いか確認する。
- 強みである「報酬モデルは選好ペア(勝ち応答・負け応答)を、ブラッドリー・テリーモデルに基づくロジスティック損失 -log σ(r_w − r_l) で学習する。学ぶのはスコア差だけで、絶対値には意味がない。」が本当に評価軸になるか確認する。
- 注意点の「用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。」を運用で吸収できるか確認する。
- 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
- 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
- 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。