RLHF と DPO：人間のフィードバックによるアライメント

なぜ「アライメント」が要るのか

事前学習を終えたLLMは「文章の続きを尤もらしく書く機械」でしかありません（LLM と Transformer 参照）。次トークン予測は 尤もらしさ を最適化しているだけで、「人間にとって有用か・安全か・指示に従っているか」は一切保証しません。質問にきちんと答える、有害な出力を避ける、丁寧に振る舞う——こうした 人間の好み（選好） にモデルを寄せる工程が アライメント であり、その代表が RLHF（Reinforcement Learning from Human Feedback） です。

問題は「良い応答」を損失関数で直接書けないことです。「親切さ」や「無害さ」に正解ラベルは存在しません。そこで RLHF は発想を変えます。絶対評価をやめ、「AとBどちらの応答が好ましいか」という相対評価（選好）を集め、それを学習信号にするのです。人間にとっても採点より「どっちがマシか」の二択のほうが安定して答えられます。

教師あり調整（SFT）との役割分担

RLHF の前段には通常 SFT（Supervised Fine-Tuning＝教師あり指示調整） があります。SFT は「理想的な応答例」を人が書いて模倣学習させる工程で、これだけでも対話はできます。ただし模倣は「お手本にある振る舞い」しか教えられません。RLHF / DPO は 「お手本の良し悪しの差」 まで信号にできる点が違い、SFT 済みモデルを出発点（参照モデル）として上に積み上げます。

RLHF のパイプライン：報酬モデル＋PPO

古典的な RLHF（InstructGPT 系）は、SFT の後に2つの段階を踏みます。

段階1：報酬モデル（Reward Model, RM）の学習。 同じプロンプトに対しモデルが複数の応答を生成し、人間が「こちらが良い」と順位付けします。この選好ペア（勝ち応答 y_w、負け応答 y_l）を使い、各応答にスカラーのスコア r(x,y) を返す報酬モデルを訓練します。損失は Bradley-Terry モデル——「2つの選択肢の選ばれやすさはスコア差で決まる」という確率モデル——に基づき、-log σ(r(x,y_w) − r(x,y_l)) を最小化します。つまり 勝ち応答のスコアが負け応答より高くなるよう RM を仕込みます。

段階2：PPO による方策最適化。 こうして得た RM を「自動採点者」に見立て、その報酬を最大化するようLLM（方策＝ポリシー）を 強化学習 で更新します（強化学習の枠組みは強化学習を参照）。ここで使う定番アルゴリズムが PPO（Proximal Policy Optimization） です。最大化する目的は概ね次の形です。

目的 = E[ r(x,y) ]  −  β · KL( π_θ(y|x) ‖ π_ref(y|x) )
   π_θ   : 学習中のポリシー（現在のLLM）
   π_ref : 参照モデル（SFT直後で固定。出発点）
   β     : KL の強さを決める係数

第1項で「報酬の高い応答」を狙わせつつ、第2項の KLペナルティ で「参照モデルから離れすぎるな」と縛ります。この制約が無いと、ポリシーはRMの穴を突く意味不明な出力（報酬ハッキング）に暴走したり、事前学習で得た言語能力を壊したりします。KLは「好みに合わせる」と「元の賢さを保つ」のバランサーです。

RLHF が“重い”理由

PPO の段階では、最低でも 4つのモデル をメモリに同居させがちです——更新中のポリシー、固定の参照モデル、報酬モデル、そして価値関数（Value/Critic）です。さらにオンライン生成（ロールアウト）と報酬計算を学習ループ内で回すため、実装が複雑で不安定になりやすく、ハイパーパラメータにも敏感。この「重さ・脆さ」こそ、後述の DPO が生まれた直接の動機です。

DPO：報酬モデルを「飛ばす」

DPO（Direct Preference Optimization） は、この2段階パイプラインを 1段階の教師あり学習に畳み込みます。報酬モデルもPPOも価値関数もオンライン生成も使いません。手元にあるのは選好ペアのデータセットと、参照モデルだけです。

核心は数学的な気づきにあります。前節のKL制約付き報酬最大化問題には 閉形式（解析的）の最適解 が存在し、最適ポリシー π* と報酬 r の関係を逆に解くと、報酬を「ポリシーと参照モデルの確率比」で表現できる のです。

r(x,y) = β · log( π*(y|x) / π_ref(y|x) ) + β·log Z(x)

この関係式を Bradley-Terry の選好確率に代入すると、分配関数 Z(x)（計算困難な厄介者）が勝ち負けの差で打ち消し合って消える——ここが DPO 最大のトリックです。結果、最小化すべき損失は次のシンプルな形になります。

L_DPO = −E[ log σ( β·log(π_θ(y_w|x)/π_ref(y_w|x))
                   − β·log(π_θ(y_l|x)/π_ref(y_l|x)) ) ]

直感的にはこうです。log(π_θ/π_ref) は 「参照モデルに対して、このポリシーがその応答をどれだけ好むようになったか」 を表す 暗黙の報酬 です。DPO は、勝ち応答 y_w の暗黙報酬を上げ、負け応答 y_l の暗黙報酬を下げるように、勾配降下でポリシーを直接動かします（最適化の土台は勾配降下法）。報酬モデルを別途学習する代わりに、ポリシー自身を“報酬モデル兼ポリシー”として一体で訓練している と捉えると本質が掴めます。

β は何を決めているか

DPO の β は RLHF の KL係数と同じ役割を担います。大きいほど参照モデルへの拘束が強く（変化が穏やか・安全寄り）、小さいほど選好データに大胆に従います。DPO で参照モデル π_ref を式に残しているのは、この KL 正則化を損失の中に内包しているからで、π_ref を消すと暴走を防ぐ歯止めが外れます。

RLHF と DPO を並べて見る

両者は「同じ目的関数」を別経路で解いています。DPO は数式上 RLHF と等価な解を狙う設計ですが、実務上の性質は大きく異なります。

観点	RLHF（RM + PPO）	DPO
学習段階	報酬モデル学習 → PPO の2段階	選好ペアからの1段階（教師あり）
報酬モデル	明示的に学習し中間表現として保持	持たない（ポリシーが暗黙の報酬を兼ねる）
学習様式	オンライン（学習中に生成して採点）	オフライン（固定の選好データを使う）
必要なモデル数	ポリシー・参照・報酬・価値の4つが基本	ポリシーと参照の2つ
安定性・実装	ハイパラに敏感で不安定・実装が重い	分類損失1本で安定・実装が軽い
探索能力	新しい応答を生成し報酬で評価できる	データに無い応答は学べない（分布外に弱い）
報酬の再利用	RM を別タスク・推論時選別に転用可能	報酬は陽に取り出せず再利用しにくい

最大の概念的差は 「オンライン vs オフライン」 です。PPO はループ内で 新しい応答を自分で生成し、その場でRMに採点させるため、データセットに無い領域まで探索できます。一方 DPO は あらかじめ固定された選好ペアだけ を使うオフライン学習なので、データが薄い領域や、ポリシーが学習中にデータ分布から外れていく場合に弱さが出ます。「報酬モデルという中間表現を捨てた」代償が、この 探索能力と汎用性の低下 です。

どちらも“RMの質”を超えられない（共通の落とし穴）

RLHF も DPO も、結局は 集めた選好データ（人間の好み）の質と偏り に支配されます。アノテーターの主観・文化差・疲労、あるいは「長い回答ほど良く見える」といった系統的バイアスは、そのまま報酬の歪みとしてモデルに焼き付きます。DPO で報酬モデルを“見えなく”しても、暗黙の報酬として同じ偏りは残ります。アライメントの上限は最終的にデータの質で決まる——ここはアルゴリズム選択では解決しません。

実務での選び方

DPO は2023年以降、その軽さと安定性から オープンモデルの選好調整の事実上の標準 になりました。GPU 予算が限られ、良質な選好ペアが手元にあるなら、まず DPO を試すのが合理的です。一方、フロンティアの研究開発や、報酬モデルを推論時の応答選別（Best-of-N）にも使い回したい場面、オンライン探索で性能を押し上げたい場面では、PPO ベースの RLHF が依然有力です。

判断の目安
  ・選好データが固定で、安定・低コストに回したい  → DPO
  ・オンライン探索や報酬モデルの転用が要る        → RLHF(PPO)
  ・まず動かして勘所を掴みたい                    → DPO から

なお両者の中間や派生も活発で、DPO をオンライン化した手法、参照モデル不要の変種、ペアでなくリスト全体を使う手法などが提案されています。ただし 「KL 制約付きで選好に寄せる」という目的関数の骨格は共通 であり、ここを押さえれば派生は読み解けます。

まとめ

論点	RLHF	DPO
やっていること	選好→報酬モデル→PPOで報酬最大化	選好から直接ポリシーを分類損失で最適化
数学的な核	KL制約付き報酬最大化を強化学習で解く	その最適解を解析的に変形し分配関数を消去
強み	オンライン探索・報酬モデルの転用	安定・軽量・実装が単純
弱み	重い・不安定・ハイパラに敏感	オフライン故に分布外・探索に弱い

RLHF と DPO は対立技術ではなく、「KL 正則化のもとで人間の選好にモデルを寄せる」という同じ最適化問題への、重いが柔軟な解法と、軽いが固定的な解法 です。報酬モデルという中間表現を残すか捨てるか——この一点が、探索能力・安定性・コストのトレードオフを丸ごと決めています。SFT で土台を作り、選好で仕上げるという二段構えの全体像はファインチューニングと RAG と合わせて読むと、LLM を製品に磨き上げる工程が一本の線でつながります。

RLHF と DPO：人間のフィードバックによるアライメント

なぜ「アライメント」が要るのか

RLHF のパイプライン：報酬モデル＋PPO

DPO：報酬モデルを「飛ばす」

RLHF と DPO を並べて見る

実務での選び方

まとめ

RLHF と DPO：人間のフィードバックによるアライメントを実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点