推論時スケーリング（テスト時計算）

推論時スケーリングとは：計算の出しどころを推論へ移す

推論時スケーリング（inference-time scaling / test-time compute） とは、学習後にパラメータやデータを増やすのではなく、1問を解くときに使う推論計算を増やして精度を上げるという考え方です。従来のスケーリングは「大きく学習したモデルほど賢い」というスケーリング則に沿って学習時計算へ投資してきました。推論時スケーリングはこれと直交する軸で、同じ重みのモデルに、より多く考えさせることで正答率を伸ばします。

核心はコストの配分です。ある目標精度を達成するのに、(a) 巨大モデルを事前学習して1回で答えさせるか、(b) 小さめのモデルに推論時に何倍もの計算を使わせるか、という二択が生まれます。難問領域では (b) の方が総 FLOPs あたりの精度が高い場面があることが実証され、これが「推論モデル（reasoning model）」台頭の理論的な後押しになりました。

学習時スケーリング:  巨大な N・D で事前学習 → 推論は1回の前向き計算
推論時スケーリング:  N は据え置き        → 推論で計算を積む
                     （生成延長 / 多数サンプル / 探索 / 検証）
同じ問題への到達精度を、学習予算ではなく推論予算で調整できる

なぜ推論に計算を回すと効くのか

デコーダは1トークンを出すたびに固定の深さ（層数）の計算しか行いません。つまり1トークンあたりの逐次計算量は一定です。難しい多段問題を1トークンで答えさせると、本来何ステップも要する計算を固定深さに押し込むことになり表現力が足りません。推論時スケーリングは、この計算をトークン数・サンプル数・探索木の方向へ展開し、実効的な計算量を稼ぎます。前提となる確率的生成はデコーディング戦略を土台にしてください。

4つの軸：逐次・並列・探索・検証

推論時計算の積み方は、大きく4軸に整理できます。多くの実システムはこれらを組み合わせます。

軸	増やすもの	効く原理	代表手法
逐次（生成延長）	中間推論トークン数	実効的な計算深さを稼ぐ	長い CoT
並列（サンプリング）	独立な経路の本数 N	多数決・選別で分散を下げる	自己整合性 / best-of-N
探索	分岐・評価・後戻り	誤りから回復し先読みする	ToT / MCTS
検証	候補の採点・再評価	誤答を棄却し正答を残す	検証器 / PRM

逐次は最も基本で、思考の連鎖を延ばして中間結果を文脈に外部化します。各ステップが新トークンとして KV キャッシュに積まれ、次段の条件付けに使われるため、逐次計算を生成長方向へ展開できます。

並列は独立な経路を N 本サンプリングし、集約します。集約が「最終解の多数決」なら自己整合性（self-consistency）、「検証器の点数が最高の候補を選ぶ」なら best-of-N です。鍵は「正解に至る道は複数あるが、誤りは経路ごとに散る」という非対称性で、これが票やスコアの集中を生みます。

best-of-N:
  for k in 1..N:
      候補_k = サンプリング生成(問題, 温度>0)   # N本を独立生成
      得点_k = 検証器(問題, 候補_k)             # 各候補を採点
  最終解 = 候補_argmax_k(得点_k)                # 最高得点を採用
  # 検証器の代わりに最終解の多数決 → self-consistency

探索は生成の途中で分岐・評価・**後戻り（バックトラック）を行い、木構造で解を探します。Tree-of-Thoughts（ToT）や、囲碁で知られるモンテカルロ木探索（MCTS）**を推論に適用する系統がこれにあたります。一本道の CoT は誤った枝に入ると戻れませんが、探索は評価とバックトラックで回復できます。代償は分岐数×深さに比例するモデル呼び出しです。

検証は候補を採点して選別する軸で、並列・探索の集約段として働きます。ステップ単位で採点する仕組みはプロセス報酬モデルで深掘りしていますが、本質は**「生成」と「検証」を分離**し、生成の広さを検証の確度で刈り込む点にあります。

生成器と検証器の非対称性が効きの源泉

多くの難問では検証は生成より易しい（解を出すのは難しいが、与えられた解の正否は確かめやすい）。この非対称性があるほど推論時スケーリングは効きます。数式の答え合わせや単体テストの合否のように機械的に検証できる領域が最も相性が良く、逆に検証が生成と同程度に難しい領域では、N を増やしても正答を選び出せず利得が伸び悩みます。

o1 型モデルの背景：長い思考を強化学習で獲得する

2024 年以降の o1 型の推論モデルは、推論時スケーリングをモデル自身の方策に内在化した点が新しさです。few-shot で外から CoT を促すのではなく、長い思考連鎖を生成しながら自己検証し、行き詰まれば方針を変えて後戻りするという振る舞いを、強化学習で後天的に獲得しています。この学習側の設計は GRPO/RLVR（検証可能報酬による推論強化）や RLHF と DPO の延長線上にあります。

決定的だったのは、思考トークン数（推論時計算）を増やすほど正答率が伸びるという、学習時とは別軸のスケーリング則が観測されたことです。両対数で見ると、推論に費やした計算と精度がおおむね直線的な関係を描きます。

学習時の法則:  精度 ↑  ∝  学習計算（N・D）を増やす      … 従来
推論時の法則:  精度 ↑  ∝  思考トークン数・探索量を増やす  … o1型で顕在化
両者は独立に効き、掛け合わせられる（学習を積み、さらに推論も積む）

CoT の忠実性を安全監視の根拠にしない

o1 型が出力（あるいは内部で生成）する思考連鎖は、モデルが実際に行った計算の正直な説明とは限りません。もっともらしい後付けの「作文」が真の計算過程とずれることがあり、これを忠実性（faithfulness）の欠如と呼びます。「考えを読めば安全か判断できる」という前提でCoTをそのまま監視に使うのは危険で、思考列の説得力と正しさは別物として扱う必要があります。

計算と精度のスケーリング：予算をどう割り当てるか

推論時スケーリングを実務に落とすと、**「限られた推論予算を、逐次・並列・探索のどこに、どれだけ割くか」**という最適化問題になります。ここには2つの重要な経験則があります。

第一に 収穫逓減。並列サンプル数 N を増やすと、best-of-N の正答率は最初こそ急伸しますが、やがて飽和します。生成長も同様で、長くしすぎると過剰思考（overthinking）——簡単な問題に冗長な推論を強いて、かえって誤りを混入させる現象——が起きます。コストは N や生成長に線形に膨らむのに、精度向上は鈍化するため、無制限に積むのは非効率です。

第二に 難度に応じた予算配分（compute-optimal な割り当て）。易しい問題には少ない計算を、難しい問題には多くの計算を回すよう適応的に配分すると、固定配分より総コストあたりの精度が上がります。同じ総予算でも、割り当て方で到達精度が大きく変わる点は、スケーリング則が学習側で示した「配分が損失を左右する」構図の推論版といえます。

論点	実態	設計への示唆
N と精度	best-of-N は伸びてやがて飽和	N は費用対効果の折れ点で打ち切る
生成長	長すぎると過剰思考で悪化	難度に応じ思考量を可変にする
予算配分	難問へ多く回すと総効率が上がる	適応的配分（易問は薄く）
検証器の質	弱い検証器は best-of-N を頭打ちにする	生成器より弱くない検証器を用意

検証器が弱いと並列スケーリングは崩れる

best-of-N の上限は検証器の性能で決まります。N を増やすほど正答候補は候補集合に含まれやすくなりますが、検証器がそれを最高点に選べなければ意味がありません。むしろ検証器の系統的な偏りを N 本の中から「最も刺さる誤答」が突く報酬ハッキングが起き、N を増やすほど精度が下がることさえあります。だからこそ検証には、機械的に正否が定まる規則（正解照合・テスト合否）や、生成器と同等以上の判別力を持つモデルが求められます。関連はプロセス報酬モデルを参照してください。

まとめ：学習と推論、二つのスケーリングを掛け合わせる

推論時スケーリングは「長く考えさせる小技」ではなく、計算の出しどころを学習時から推論時へ移す設計判断です。要点を一枚に整理します。

論点	実態	示唆
位置づけ	学習時スケーリングと直交する軸	同じ重みで推論予算により精度を調整
4つの軸	逐次・並列・探索・検証	難問ほど組み合わせの利得が大きい
o1型の背景	長い思考と自己検証をRLで内在化	推論トークン数で伸びる別軸の法則
スケーリング	収穫逓減があり配分が効く	難度に応じた適応的な計算割り当て
限界	忠実性なし・検証器依存・過剰思考	検証を強化し予算を積み過ぎない

結論として、推論時スケーリングは学習時スケーリングを置き換えるものではなく掛け合わせるものです。よく学習したモデルに、問題の難度に見合った推論計算を、生成・探索・検証のどこに配るかまで含めて設計する——ここまで踏み込めると、同じモデルでも到達できる正答率が大きく変わります。土台となる仕組みは LLM と Transformer を、推論を引き出す前段は思考の連鎖を併読すると、点が線でつながります。

推論時スケーリング（テスト時計算）

推論時スケーリングとは：計算の出しどころを推論へ移す

4つの軸：逐次・並列・探索・検証

o1 型モデルの背景：長い思考を強化学習で獲得する

計算と精度のスケーリング：予算をどう割り当てるか

まとめ：学習と推論、二つのスケーリングを掛け合わせる

推論時スケーリング（テスト時計算）を実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点