TL

RLHF と DPO:人間のフィードバックによるアライメント

事前学習だけのモデルを「人に好かれる助手」へ仕上げる核心技術。報酬モデルとPPOで回すRLHFと、選好から直接最適化する軽量なDPOの仕組みと違いを原理から理解できます。

応用RLHFDPOアライメントLLM強化学習最終更新: 2026-06-21
TL;DR要点だけ先に
  • 1.RLHFは「報酬モデルの学習→その報酬を最大化する方策をPPOで強化学習」の2段構え。人間の選好(A/Bどちらが良いか)を報酬の形に変換してLLMをアライメントします。
  • 2.DPOは報酬モデルもPPOも使わず、選好ペアから直接ポリシーを更新します。RLHFの目的関数を解析的に変形し、単純な分類損失1本に落とし込んだのが核心です。
  • 3.DPOは安定で実装が軽い一方、報酬モデルという中間表現を持たないため、生成サンプルを使ったオンライン探索や報酬の再利用がしにくいというトレードオフがあります。

なぜ「アライメント」が要るのか

事前学習を終えたLLMは「文章の続きを尤もらしく書く機械」でしかありません(LLM と Transformer 参照)。次トークン予測は 尤もらしさ を最適化しているだけで、「人間にとって有用か・安全か・指示に従っているか」は一切保証しません。質問にきちんと答える、有害な出力を避ける、丁寧に振る舞う——こうした 人間の好み(選好) にモデルを寄せる工程が アライメント であり、その代表が RLHF(Reinforcement Learning from Human Feedback) です。

問題は「良い応答」を損失関数で直接書けないことです。「親切さ」や「無害さ」に正解ラベルは存在しません。そこで RLHF は発想を変えます。絶対評価をやめ、「AとBどちらの応答が好ましいか」という相対評価(選好)を集め、それを学習信号にするのです。人間にとっても採点より「どっちがマシか」の二択のほうが安定して答えられます。

教師あり調整(SFT)との役割分担

RLHF の前段には通常 SFT(Supervised Fine-Tuning=教師あり指示調整) があります。SFT は「理想的な応答例」を人が書いて模倣学習させる工程で、これだけでも対話はできます。ただし模倣は「お手本にある振る舞い」しか教えられません。RLHF / DPO は 「お手本の良し悪しの差」 まで信号にできる点が違い、SFT 済みモデルを出発点(参照モデル)として上に積み上げます。

RLHF のパイプライン:報酬モデル+PPO

古典的な RLHF(InstructGPT 系)は、SFT の後に2つの段階を踏みます。

段階1:報酬モデル(Reward Model, RM)の学習。 同じプロンプトに対しモデルが複数の応答を生成し、人間が「こちらが良い」と順位付けします。この選好ペア(勝ち応答 y_w、負け応答 y_l)を使い、各応答にスカラーのスコア r(x,y) を返す報酬モデルを訓練します。損失は Bradley-Terry モデル——「2つの選択肢の選ばれやすさはスコア差で決まる」という確率モデル——に基づき、-log σ(r(x,y_w) − r(x,y_l)) を最小化します。つまり 勝ち応答のスコアが負け応答より高くなるよう RM を仕込みます。

段階2:PPO による方策最適化。 こうして得た RM を「自動採点者」に見立て、その報酬を最大化するようLLM(方策=ポリシー)を 強化学習 で更新します(強化学習の枠組みは 強化学習 を参照)。ここで使う定番アルゴリズムが PPO(Proximal Policy Optimization) です。最大化する目的は概ね次の形です。

目的 = E[ r(x,y) ]  −  β · KL( π_θ(y|x) ‖ π_ref(y|x) )
   π_θ   : 学習中のポリシー(現在のLLM)
   π_ref : 参照モデル(SFT直後で固定。出発点)
   β     : KL の強さを決める係数

第1項で「報酬の高い応答」を狙わせつつ、第2項の KLペナルティ で「参照モデルから離れすぎるな」と縛ります。この制約が無いと、ポリシーはRMの穴を突く意味不明な出力(報酬ハッキング)に暴走したり、事前学習で得た言語能力を壊したりします。KLは「好みに合わせる」と「元の賢さを保つ」のバランサーです。

RLHF が“重い”理由

PPO の段階では、最低でも 4つのモデル をメモリに同居させがちです——更新中のポリシー、固定の参照モデル、報酬モデル、そして価値関数(Value/Critic)です。さらにオンライン生成(ロールアウト)と報酬計算を学習ループ内で回すため、実装が複雑で不安定になりやすく、ハイパーパラメータにも敏感。この「重さ・脆さ」こそ、後述の DPO が生まれた直接の動機です。

DPO:報酬モデルを「飛ばす」

DPO(Direct Preference Optimization) は、この2段階パイプラインを 1段階の教師あり学習に畳み込みます。報酬モデルもPPOも価値関数もオンライン生成も使いません。手元にあるのは選好ペアのデータセットと、参照モデルだけです。

核心は数学的な気づきにあります。前節のKL制約付き報酬最大化問題には 閉形式(解析的)の最適解 が存在し、最適ポリシー π* と報酬 r の関係を逆に解くと、報酬を「ポリシーと参照モデルの確率比」で表現できる のです。

r(x,y) = β · log( π*(y|x) / π_ref(y|x) ) + β·log Z(x)

この関係式を Bradley-Terry の選好確率に代入すると、分配関数 Z(x)(計算困難な厄介者)が勝ち負けの差で打ち消し合って消える——ここが DPO 最大のトリックです。結果、最小化すべき損失は次のシンプルな形になります。

L_DPO = −E[ log σ( β·log(π_θ(y_w|x)/π_ref(y_w|x))
                   − β·log(π_θ(y_l|x)/π_ref(y_l|x)) ) ]

直感的にはこうです。log(π_θ/π_ref)「参照モデルに対して、このポリシーがその応答をどれだけ好むようになったか」 を表す 暗黙の報酬 です。DPO は、勝ち応答 y_w の暗黙報酬を上げ、負け応答 y_l の暗黙報酬を下げるように、勾配降下でポリシーを直接動かします(最適化の土台は 勾配降下法)。報酬モデルを別途学習する代わりに、ポリシー自身を“報酬モデル兼ポリシー”として一体で訓練している と捉えると本質が掴めます。

β は何を決めているか

DPO の β は RLHF の KL係数と同じ役割を担います。大きいほど参照モデルへの拘束が強く(変化が穏やか・安全寄り)、小さいほど選好データに大胆に従います。DPO で参照モデル π_ref を式に残しているのは、この KL 正則化を損失の中に内包しているからで、π_ref を消すと暴走を防ぐ歯止めが外れます。

RLHF と DPO を並べて見る

両者は「同じ目的関数」を別経路で解いています。DPO は数式上 RLHF と等価な解を狙う設計ですが、実務上の性質は大きく異なります。

観点RLHF(RM + PPO)DPO
学習段階報酬モデル学習 → PPO の2段階選好ペアからの1段階(教師あり)
報酬モデル明示的に学習し中間表現として保持持たない(ポリシーが暗黙の報酬を兼ねる)
学習様式オンライン(学習中に生成して採点)オフライン(固定の選好データを使う)
必要なモデル数ポリシー・参照・報酬・価値の4つが基本ポリシーと参照の2つ
安定性・実装ハイパラに敏感で不安定・実装が重い分類損失1本で安定・実装が軽い
探索能力新しい応答を生成し報酬で評価できるデータに無い応答は学べない(分布外に弱い)
報酬の再利用RM を別タスク・推論時選別に転用可能報酬は陽に取り出せず再利用しにくい

最大の概念的差は 「オンライン vs オフライン」 です。PPO はループ内で 新しい応答を自分で生成し、その場でRMに採点させるため、データセットに無い領域まで探索できます。一方 DPO は あらかじめ固定された選好ペアだけ を使うオフライン学習なので、データが薄い領域や、ポリシーが学習中にデータ分布から外れていく場合に弱さが出ます。「報酬モデルという中間表現を捨てた」代償が、この 探索能力と汎用性の低下 です。

どちらも“RMの質”を超えられない(共通の落とし穴)

RLHF も DPO も、結局は 集めた選好データ(人間の好み)の質と偏り に支配されます。アノテーターの主観・文化差・疲労、あるいは「長い回答ほど良く見える」といった系統的バイアスは、そのまま報酬の歪みとしてモデルに焼き付きます。DPO で報酬モデルを“見えなく”しても、暗黙の報酬として同じ偏りは残ります。アライメントの上限は最終的にデータの質で決まる——ここはアルゴリズム選択では解決しません。

実務での選び方

DPO は2023年以降、その軽さと安定性から オープンモデルの選好調整の事実上の標準 になりました。GPU 予算が限られ、良質な選好ペアが手元にあるなら、まず DPO を試すのが合理的です。一方、フロンティアの研究開発や、報酬モデルを推論時の応答選別(Best-of-N)にも使い回したい場面、オンライン探索で性能を押し上げたい場面では、PPO ベースの RLHF が依然有力です。

判断の目安
  ・選好データが固定で、安定・低コストに回したい  → DPO
  ・オンライン探索や報酬モデルの転用が要る        → RLHF(PPO)
  ・まず動かして勘所を掴みたい                    → DPO から

なお両者の中間や派生も活発で、DPO をオンライン化した手法、参照モデル不要の変種、ペアでなくリスト全体を使う手法などが提案されています。ただし 「KL 制約付きで選好に寄せる」という目的関数の骨格は共通 であり、ここを押さえれば派生は読み解けます。

まとめ

論点RLHFDPO
やっていること選好→報酬モデル→PPOで報酬最大化選好から直接ポリシーを分類損失で最適化
数学的な核KL制約付き報酬最大化を強化学習で解くその最適解を解析的に変形し分配関数を消去
強みオンライン探索・報酬モデルの転用安定・軽量・実装が単純
弱み重い・不安定・ハイパラに敏感オフライン故に分布外・探索に弱い

RLHF と DPO は対立技術ではなく、「KL 正則化のもとで人間の選好にモデルを寄せる」という同じ最適化問題への、重いが柔軟な解法と、軽いが固定的な解法 です。報酬モデルという中間表現を残すか捨てるか——この一点が、探索能力・安定性・コストのトレードオフを丸ごと決めています。SFT で土台を作り、選好で仕上げるという二段構えの全体像は ファインチューニングと RAG と合わせて読むと、LLM を製品に磨き上げる工程が一本の線でつながります。

AI/機械学習 Article

RLHF と DPO:人間のフィードバックによるアライメントを実務で読む

TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。

解決すること

RLHF

比較で見る軸

難易度: advanced / カテゴリ: AI/機械学習 / タグ数: 5

導入後に効く点

DPOは報酬モデルもPPOも使わず、選好ペアから直接ポリシーを更新します。RLHFの目的関数を解析的に変形し、単純な分類損失1本に落とし込んだのが核心です。

先に潰すリスク

用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。

数字・仕様の読み方
難易度
advanced
カテゴリ
AI/機械学習
タグ数
5

判断チェックリスト

  • 自社の用途が「RLHF / DPO」に近いか確認する。
  • 強みである「RLHFは「報酬モデルの学習→その報酬を最大化する方策をPPOで強化学習」の2段構え。人間の選好(A/Bどちらが良いか)を報酬の形に変換してLLMをアライメントします。」が本当に評価軸になるか確認する。
  • 注意点の「用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。」を運用で吸収できるか確認する。
  • 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
  • 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
  • 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。

次に確認する観点

RLHFDPOアライメントLLM強化学習RLHFDPOアライメント
参考: 公式情報