プロセス報酬モデルと推論時スケーリング

学習を増やすか、考える時間を増やすか

スケーリング則が示したのは「パラメータ数・データ・学習計算量を増やせば性能が上がる」という学習時の法則でした。しかし推論時にも別の軸があります。同じモデルでも、1回で答えを出すか、何通りも考えて選び抜くか、長く吟味してから答えるかで精度は大きく変わる。推論時スケーリング（test-time scaling） は、学習済みモデルを固定したまま「推論にかける計算量」を増やして性能を引き上げるアプローチの総称です。

その鍵になるのが、生成した推論を採点する検証器（verifier） と、複数候補から良い解を探索する仕組みです。まずは採点の粒度から見ます。

ORM と PRM：結果を採点するか、過程を採点するか

数学やコード生成のように多段の推論を要するタスクでは、報酬を「どこに」与えるかが本質的に効きます。

観点	ORM（結果報酬）	PRM（プロセス報酬）
採点の対象	最終解だけ（正解か不正解か）	推論の各ステップ
報酬の密度	疎（軌跡の末尾に1つ）	密（ステップごとに信号）
誤りの特定	どこで間違えたか不明	誤りの始まるステップを特定できる
弱点	偶然正解した誤った過程も高評価	ステップ単位のラベル付けが高コスト
ラベル付け	自動（最終解の照合）が容易	人手か自動ラベリングが必要

ORM（Outcome Reward Model） は最終解だけを見て正否を返します。実装は簡単ですが、致命的な弱点があります。過程が誤っていても偶然最終解が合えば高評価になる（false positive）。長い推論ほど「途中で間違えたが運良く答えが合う」経路が増え、ORM はそれを区別できません。

PRM（Process Reward Model） は推論を区切り、各ステップが正しいかを採点します。p(ステップt が正しい | これまでの推論) を出力する分類器だと考えると分かりやすい。報酬がステップごとに密に与えられるので、どのステップで推論が破綻したかを特定でき、探索の枝刈りにも使えます。

PRM の学習ラベルをどう作るか

ステップ単位の正誤ラベルは人手だと高コストです。そこで自動化が研究されています。代表が モンテカルロ法によるラベリング で、あるステップから先を方策に何度もロールアウトさせ、そのステップ以降で正解に到達できた割合を「そのステップの価値」とみなします。割合が高ければそのステップは正しい方向、低ければ誤りの兆候、というわけです。これは強化学習でいう価値推定そのものであり、PRM が単なる分類器ではなくステップ価値の近似器として働くことを示しています。

PRM のもう一つの効用は、解全体への集約方法を選べる点です。各ステップのスコアをどう束ねて「解候補1本の品質」にするか——最小値を取る（一番怪しいステップが解全体を引きずる）、平均を取る、最後のステップを使う、などの集約があり、最小値ベースが堅牢とされます。これは「鎖は最も弱い環で切れる」という多段推論の性質に合致しています。

best-of-N とビームサーチ：検証器で解を探索する

検証器が手に入ると、生成を1回で終えず、複数候補を出して選別する戦略が取れます。これが推論時に計算を投入する最も直接的な方法です。

最も単純なのが best-of-N（Nサンプリング） です。同じ問題に対し方策から N 本の解を独立にサンプリングし、検証器のスコアが最も高い1本を採用します。

best-of-N の手順:
  1. 問題 x に対し、方策 π から解候補 y_1 ... y_N をサンプリング
  2. 各候補を検証器でスコアリング:  s_i = Verifier(x, y_i)
  3. argmax_i s_i の候補を最終解として返す

検証器に PRM を使う場合、s_i は各ステップスコアの集約値です。ORM を使う場合は最終解の正否確率になります。N を増やすほど良い候補に当たる確率が上がるため、N が推論時計算量のつまみになります。

多数決(self-consistency)との違い

検証器を使わず、N本の解の最終解だけを多数決する手法（self-consistency）もあります。実装は最も軽く、検証器の学習が要りません。ただし「もっともらしく見えて全部同じ誤り方をする」場合に弱く、検証器による best-of-N の方が一般に強い。両者は組み合わせ可能で、検証器の重みで重み付き多数決する方式（weighted majority）は単純多数決と純粋なbest-of-Nの中間として安定します。

best-of-N は解を「最後まで生成してから」採点しますが、PRM のステップ単位スコアを使えば生成の途中で枝刈りできます。これが ビームサーチ（過程探索版） です。デコーディング戦略のビームサーチがトークン単位で確率の高い系列を保持するのに対し、ここでは推論ステップ単位で PRM スコアの高い部分解だけを残します。

PRM ビームサーチ（幅 B, 各ステップで K 個に分岐）:
  ビーム = [空の推論]
  各ステップで:
    現在の各部分解から K 個の次ステップ候補を生成
    生成した全候補を PRM で採点
    スコア上位 B 個だけを次のビームとして残す（残りは枝刈り）
  最終ステップまで到達したビームから最良を返す

best-of-N が「最後まで走らせて選ぶ」全幅的な探索なのに対し、ビームサーチは途中で見込みのない枝を捨てるぶん同じ計算量でも探索効率が高くなりやすい。さらに一般化すると、PRM を状態価値とみなしてモンテカルロ木探索（MCTS）で展開・選択・バックアップを回す方向にも拡張されます。

検証器が弱いと探索は逆効果になりうる

推論時スケーリングは検証器の質に強く依存します。検証器が不正確だと、N を増やすほど「検証器を欺く（高スコアだが実は誤り）」候補を引き当てやすくなる——いわゆる reward hacking が起きます。ビームサーチは枝刈りが効くぶんこの影響を受けやすく、検証器が弱い領域では素朴な best-of-N の方が頑健なことすらあります。「計算を増やせば必ず良くなる」のではなく「良い検証器がある前提で計算を増やすと良くなる」が正確な理解です。

計算予算の最適配分：N を増やすかモデルを大きくするか

推論時スケーリングの実務的な問いは「固定の計算予算を、どこに割り振ると最も得か」です。同じ FLOPs を、より大きなモデルの1回推論に使うべきか、小さなモデルで N 本探索するのに使うべきか。

研究が示したのは問題の難易度で最適配分が変わることです。易しい問題では小モデル＋多めの探索が、難しい問題では大モデルが有利になりやすい。つまり推論時計算は学習時計算と部分的に交換可能で、用途次第で「小さいモデルに長く考えさせる」方が「大きいモデルに一回で答えさせる」より安く同じ精度に届くことがあります。これはスケーリング則を推論側へ拡張した見方です。

手法	計算を増やす場所	得意な状況
best-of-N	候補数 N（並列）	検証器が信頼でき、並列計算が潤沢
PRM ビームサーチ	幅 B × ステップ分岐 K	多段推論で途中の枝刈りが効く
逐次的修正	1本を反復的に改稿する深さ	自己修正で誤りを直せる難問
大モデル1回	パラメータ数	検証器が弱い／探索の利得が薄い問題

o1 系：思考連鎖そのものを強化学習で鍛える

ここまでは「外部の検証器で探索する」枠組みでした。o1 系の手法はやや別軸で、長い思考連鎖（CoT）を生成しながら自己検証・後戻り・別解の試行を行う方策そのものを、強化学習で内部化します。推論時に外部探索を回す代わりに、モデルが自前で長く考える能力を学習で獲得する発想です。

学習の骨子は、最終解の正否（検証可能なタスクなら自動採点できる）を報酬に、長い思考過程を生成する方策を方策勾配法・PPO 系の強化学習で最適化することです。報酬は最終解ベース（ORM 的）でも、過程を評価する PRM を併用してもよい。結果として、モデルは「いったん解いて、検算し、間違いに気づいたら戻ってやり直す」といったメタ的な推論の型を思考連鎖の中で自発的に展開するようになります。

o1 系が示した「第二のスケーリング則」

o1 系の核心的な観察は、推論時に費やす思考トークン数を増やすほど精度が滑らかに上がるという別軸のスケーリング則です。横軸を「学習計算量」ではなく「推論時に生成した思考トークン数（＝考えた量）」に取ると、対数線形に近い右肩上がりが現れます。学習時スケーリングが頭打ち気味でも、推論時に長く考えさせる軸はまだ伸びしろがある——これが o1 系が切り拓いた地点です。best-of-N が並列（N本を横に広げる）で計算を増やすのに対し、o1 系は逐次（1本の思考を縦に深める）で計算を増やす、と整理できます。

検証可能性という前提と、その外側

推論時スケーリングと o1 系が強いのは、正解を自動判定できる領域——数学・コード・論理パズルなど——です。報酬や検証器が信頼でき、探索や強化学習が安定して回るからです。一方、要約・対話・創作のように正解が一意でないタスクでは検証器自体の構築が難しく、推論時計算を増やしても利得が乏しい、あるいは reward hacking で劣化しうる。「自動で検証できるか」が推論時スケーリングの効きを左右する分水嶺であり、どんなタスクでも計算を増やせば賢くなるわけではない点は誤解されやすいので注意が必要です。

まとめ

概念	解決した問題	核心アイデア
PRM	ORMは過程の誤りを見逃す	ステップ単位で採点し誤りを局所化
best-of-N	1回生成では当たり外れが大きい	N本生成し検証器で最良を選ぶ
PRMビームサーチ	全候補を最後まで生成は無駄	PRMスコアで途中の枝を刈る
計算予算配分	学習を増やすしか手がない	推論時計算と学習時計算を交換
o1系	外部探索は重く汎用性が低い	長いCoTで考える方策をRLで内部化

推論時スケーリングの系譜は、「学習を増やす」一辺倒だった性能向上に「考える時間を増やす」第二の軸を加えたものとして読めます。PRM が報酬を密にして検証器を強くし、best-of-N とビームサーチがその検証器で解空間を探索し、o1 系がその探索を強化学習で方策の中へ畳み込んだ。底流にあるのは強化学習の報酬設計と探索の思想であり、現代の「賢く考えるモデル」は学習時と推論時、二つのスケーリング軸の上に立っていると理解できます。

プロセス報酬モデルと推論時スケーリング

学習を増やすか、考える時間を増やすか

ORM と PRM：結果を採点するか、過程を採点するか

best-of-N とビームサーチ：検証器で解を探索する

計算予算の最適配分：N を増やすかモデルを大きくするか

o1 系：思考連鎖そのものを強化学習で鍛える

まとめ

プロセス報酬モデルと推論時スケーリングを実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点