プロセス報酬モデルと推論時スケーリング
学習を増やさず「考える時間」を増やして賢くする手法の原理がわかります。ステップ単位で採点するPRMと検証器による解探索、o1系が推論時計算で精度を伸ばす仕組みを内部から理解できます。
- 1.結果報酬(ORM)は最終解だけを採点するのに対し、プロセス報酬モデル(PRM)は推論の各ステップを採点する。誤りの始点を特定でき、報酬が密になるぶん検証器として強力に働く。
- 2.best-of-Nやビームサーチは複数の解候補を生成し検証器で選別する探索。学習を変えずに推論時の計算量Nを増やすほど精度が上がり、これが推論時スケーリングの実体。
- 3.o1系は長い思考連鎖(CoT)を生成しながら自己検証・後戻りする方策を強化学習で獲得し、推論時のトークン数を増やすほど性能が伸びる別軸のスケーリング則を示した。
学習を増やすか、考える時間を増やすか
スケーリング則 が示したのは「パラメータ数・データ・学習計算量を増やせば性能が上がる」という学習時の法則でした。しかし推論時にも別の軸があります。同じモデルでも、1回で答えを出すか、何通りも考えて選び抜くか、長く吟味してから答えるかで精度は大きく変わる。推論時スケーリング(test-time scaling) は、学習済みモデルを固定したまま「推論にかける計算量」を増やして性能を引き上げるアプローチの総称です。
その鍵になるのが、生成した推論を採点する検証器(verifier) と、複数候補から良い解を探索する仕組みです。まずは採点の粒度から見ます。
ORM と PRM:結果を採点するか、過程を採点するか
数学やコード生成のように多段の推論を要するタスクでは、報酬を「どこに」与えるかが本質的に効きます。
| 観点 | ORM(結果報酬) | PRM(プロセス報酬) |
|---|---|---|
| 採点の対象 | 最終解だけ(正解か不正解か) | 推論の各ステップ |
| 報酬の密度 | 疎(軌跡の末尾に1つ) | 密(ステップごとに信号) |
| 誤りの特定 | どこで間違えたか不明 | 誤りの始まるステップを特定できる |
| 弱点 | 偶然正解した誤った過程も高評価 | ステップ単位のラベル付けが高コスト |
| ラベル付け | 自動(最終解の照合)が容易 | 人手か自動ラベリングが必要 |
ORM(Outcome Reward Model) は最終解だけを見て正否を返します。実装は簡単ですが、致命的な弱点があります。過程が誤っていても偶然最終解が合えば高評価になる(false positive)。長い推論ほど「途中で間違えたが運良く答えが合う」経路が増え、ORM はそれを区別できません。
PRM(Process Reward Model) は推論を区切り、各ステップが正しいかを採点します。p(ステップt が正しい | これまでの推論) を出力する分類器だと考えると分かりやすい。報酬がステップごとに密に与えられるので、どのステップで推論が破綻したかを特定でき、探索の枝刈りにも使えます。
ステップ単位の正誤ラベルは人手だと高コストです。そこで自動化が研究されています。代表が モンテカルロ法によるラベリング で、あるステップから先を方策に何度もロールアウトさせ、そのステップ以降で正解に到達できた割合を「そのステップの価値」とみなします。割合が高ければそのステップは正しい方向、低ければ誤りの兆候、というわけです。これは強化学習でいう価値推定そのものであり、PRM が単なる分類器ではなくステップ価値の近似器として働くことを示しています。
PRM のもう一つの効用は、解全体への集約方法を選べる点です。各ステップのスコアをどう束ねて「解候補1本の品質」にするか——最小値を取る(一番怪しいステップが解全体を引きずる)、平均を取る、最後のステップを使う、などの集約があり、最小値ベースが堅牢とされます。これは「鎖は最も弱い環で切れる」という多段推論の性質に合致しています。
best-of-N とビームサーチ:検証器で解を探索する
検証器が手に入ると、生成を1回で終えず、複数候補を出して選別する戦略が取れます。これが推論時に計算を投入する最も直接的な方法です。
最も単純なのが best-of-N(Nサンプリング) です。同じ問題に対し方策から N 本の解を独立にサンプリングし、検証器のスコアが最も高い1本を採用します。
best-of-N の手順:
1. 問題 x に対し、方策 π から解候補 y_1 ... y_N をサンプリング
2. 各候補を検証器でスコアリング: s_i = Verifier(x, y_i)
3. argmax_i s_i の候補を最終解として返す
検証器に PRM を使う場合、s_i は各ステップスコアの集約値です。ORM を使う場合は最終解の正否確率になります。N を増やすほど良い候補に当たる確率が上がるため、N が推論時計算量のつまみになります。
検証器を使わず、N本の解の最終解だけを多数決する手法(self-consistency)もあります。実装は最も軽く、検証器の学習が要りません。ただし「もっともらしく見えて全部同じ誤り方をする」場合に弱く、検証器による best-of-N の方が一般に強い。両者は組み合わせ可能で、検証器の重みで重み付き多数決する方式(weighted majority)は単純多数決と純粋なbest-of-Nの中間として安定します。
best-of-N は解を「最後まで生成してから」採点しますが、PRM のステップ単位スコアを使えば生成の途中で枝刈りできます。これが ビームサーチ(過程探索版) です。デコーディング戦略 のビームサーチがトークン単位で確率の高い系列を保持するのに対し、ここでは推論ステップ単位で PRM スコアの高い部分解だけを残します。
PRM ビームサーチ(幅 B, 各ステップで K 個に分岐):
ビーム = [空の推論]
各ステップで:
現在の各部分解から K 個の次ステップ候補を生成
生成した全候補を PRM で採点
スコア上位 B 個だけを次のビームとして残す(残りは枝刈り)
最終ステップまで到達したビームから最良を返す
best-of-N が「最後まで走らせて選ぶ」全幅的な探索なのに対し、ビームサーチは途中で見込みのない枝を捨てるぶん同じ計算量でも探索効率が高くなりやすい。さらに一般化すると、PRM を状態価値とみなしてモンテカルロ木探索(MCTS)で展開・選択・バックアップを回す方向にも拡張されます。
推論時スケーリングは検証器の質に強く依存します。検証器が不正確だと、N を増やすほど「検証器を欺く(高スコアだが実は誤り)」候補を引き当てやすくなる——いわゆる reward hacking が起きます。ビームサーチは枝刈りが効くぶんこの影響を受けやすく、検証器が弱い領域では素朴な best-of-N の方が頑健なことすらあります。「計算を増やせば必ず良くなる」のではなく「良い検証器がある前提で計算を増やすと良くなる」が正確な理解です。
計算予算の最適配分:N を増やすかモデルを大きくするか
推論時スケーリングの実務的な問いは「固定の計算予算を、どこに割り振ると最も得か」です。同じ FLOPs を、より大きなモデルの1回推論に使うべきか、小さなモデルで N 本探索するのに使うべきか。
研究が示したのは問題の難易度で最適配分が変わることです。易しい問題では小モデル+多めの探索が、難しい問題では大モデルが有利になりやすい。つまり推論時計算は学習時計算と部分的に交換可能で、用途次第で「小さいモデルに長く考えさせる」方が「大きいモデルに一回で答えさせる」より安く同じ精度に届くことがあります。これは スケーリング則 を推論側へ拡張した見方です。
| 手法 | 計算を増やす場所 | 得意な状況 |
|---|---|---|
| best-of-N | 候補数 N(並列) | 検証器が信頼でき、並列計算が潤沢 |
| PRM ビームサーチ | 幅 B × ステップ分岐 K | 多段推論で途中の枝刈りが効く |
| 逐次的修正 | 1本を反復的に改稿する深さ | 自己修正で誤りを直せる難問 |
| 大モデル1回 | パラメータ数 | 検証器が弱い/探索の利得が薄い問題 |
o1 系:思考連鎖そのものを強化学習で鍛える
ここまでは「外部の検証器で探索する」枠組みでした。o1 系の手法はやや別軸で、長い思考連鎖(CoT)を生成しながら自己検証・後戻り・別解の試行を行う方策そのものを、強化学習で内部化します。推論時に外部探索を回す代わりに、モデルが自前で長く考える能力を学習で獲得する発想です。
学習の骨子は、最終解の正否(検証可能なタスクなら自動採点できる)を報酬に、長い思考過程を生成する方策を 方策勾配法・PPO 系の強化学習で最適化することです。報酬は最終解ベース(ORM 的)でも、過程を評価する PRM を併用してもよい。結果として、モデルは「いったん解いて、検算し、間違いに気づいたら戻ってやり直す」といったメタ的な推論の型を思考連鎖の中で自発的に展開するようになります。
o1 系の核心的な観察は、推論時に費やす思考トークン数を増やすほど精度が滑らかに上がるという別軸のスケーリング則です。横軸を「学習計算量」ではなく「推論時に生成した思考トークン数(=考えた量)」に取ると、対数線形に近い右肩上がりが現れます。学習時スケーリングが頭打ち気味でも、推論時に長く考えさせる軸はまだ伸びしろがある——これが o1 系が切り拓いた地点です。best-of-N が並列(N本を横に広げる)で計算を増やすのに対し、o1 系は逐次(1本の思考を縦に深める)で計算を増やす、と整理できます。
推論時スケーリングと o1 系が強いのは、正解を自動判定できる領域——数学・コード・論理パズルなど——です。報酬や検証器が信頼でき、探索や強化学習が安定して回るからです。一方、要約・対話・創作のように正解が一意でないタスクでは検証器自体の構築が難しく、推論時計算を増やしても利得が乏しい、あるいは reward hacking で劣化しうる。「自動で検証できるか」が推論時スケーリングの効きを左右する分水嶺であり、どんなタスクでも計算を増やせば賢くなるわけではない点は誤解されやすいので注意が必要です。
まとめ
| 概念 | 解決した問題 | 核心アイデア |
|---|---|---|
| PRM | ORMは過程の誤りを見逃す | ステップ単位で採点し誤りを局所化 |
| best-of-N | 1回生成では当たり外れが大きい | N本生成し検証器で最良を選ぶ |
| PRMビームサーチ | 全候補を最後まで生成は無駄 | PRMスコアで途中の枝を刈る |
| 計算予算配分 | 学習を増やすしか手がない | 推論時計算と学習時計算を交換 |
| o1系 | 外部探索は重く汎用性が低い | 長いCoTで考える方策をRLで内部化 |
推論時スケーリングの系譜は、「学習を増やす」一辺倒だった性能向上に「考える時間を増やす」第二の軸を加えたものとして読めます。PRM が報酬を密にして検証器を強くし、best-of-N とビームサーチがその検証器で解空間を探索し、o1 系がその探索を強化学習で方策の中へ畳み込んだ。底流にあるのは 強化学習 の報酬設計と探索の思想であり、現代の「賢く考えるモデル」は学習時と推論時、二つのスケーリング軸の上に立っていると理解できます。
AI/機械学習 Article
プロセス報酬モデルと推論時スケーリングを実務で読む
TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。
解決すること
推論時スケーリング
比較で見る軸
難易度: advanced / カテゴリ: AI/機械学習 / タグ数: 5
導入後に効く点
best-of-Nやビームサーチは複数の解候補を生成し検証器で選別する探索。学習を変えずに推論時の計算量Nを増やすほど精度が上がり、これが推論時スケーリングの実体。
先に潰すリスク
用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。
- 難易度
- advanced
- カテゴリ
- AI/機械学習
- タグ数
- 5
判断チェックリスト
- 自社の用途が「推論時スケーリング / プロセス報酬モデル」に近いか確認する。
- 強みである「結果報酬(ORM)は最終解だけを採点するのに対し、プロセス報酬モデル(PRM)は推論の各ステップを採点する。誤りの始点を特定でき、報酬が密になるぶん検証器として強力に働く。」が本当に評価軸になるか確認する。
- 注意点の「用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。」を運用で吸収できるか確認する。
- 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
- 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
- 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。