推論時スケーリング(テスト時計算)
モデルを再学習せず、推論のときに計算を積むだけで難問の正答率が伸びる。生成延長・並列サンプリング・探索・検証という4軸と計算対精度のスケーリング則を押さえれば、o1型モデルの設計思想を内側から理解できます。
- 1.推論時スケーリング(テスト時計算)は、学習後にパラメータを増やすのではなく、1問あたりに使う推論計算(生成トークン数・サンプル本数・探索幅・検証回数)を増やして精度を上げる考え方。学習コストと推論コストのどちらに投資するかという設計判断になる。
- 2.手段は主に4軸。CoT を延ばす逐次計算、独立サンプルを多数決する並列計算(best-of-N・自己整合性)、分岐と後戻りを伴う探索(ToT・MCTS)、検証器で候補を選別する検証。学習は据え置いたまま計算量を増やすほど正答率が伸びる。
- 3.o1 型は長い思考連鎖と自己検証・後戻りの方策を強化学習で獲得し、思考トークン数を増やすほど性能が伸びる推論時のスケーリング則を示した。ただし収穫逓減があり、問題難度に応じた計算予算の配分と、生成器より弱くない検証器が要になる。
推論時スケーリングとは:計算の出しどころを推論へ移す
推論時スケーリング(inference-time scaling / test-time compute) とは、学習後にパラメータやデータを増やすのではなく、1問を解くときに使う推論計算を増やして精度を上げるという考え方です。従来のスケーリングは「大きく学習したモデルほど賢い」という スケーリング則 に沿って学習時計算へ投資してきました。推論時スケーリングはこれと直交する軸で、同じ重みのモデルに、より多く考えさせることで正答率を伸ばします。
核心はコストの配分です。ある目標精度を達成するのに、(a) 巨大モデルを事前学習して1回で答えさせるか、(b) 小さめのモデルに推論時に何倍もの計算を使わせるか、という二択が生まれます。難問領域では (b) の方が総 FLOPs あたりの精度が高い場面があることが実証され、これが「推論モデル(reasoning model)」台頭の理論的な後押しになりました。
学習時スケーリング: 巨大な N・D で事前学習 → 推論は1回の前向き計算
推論時スケーリング: N は据え置き → 推論で計算を積む
(生成延長 / 多数サンプル / 探索 / 検証)
同じ問題への到達精度を、学習予算ではなく推論予算で調整できる
デコーダは1トークンを出すたびに固定の深さ(層数)の計算しか行いません。つまり1トークンあたりの逐次計算量は一定です。難しい多段問題を1トークンで答えさせると、本来何ステップも要する計算を固定深さに押し込むことになり表現力が足りません。推論時スケーリングは、この計算をトークン数・サンプル数・探索木の方向へ展開し、実効的な計算量を稼ぎます。前提となる確率的生成は デコーディング戦略 を土台にしてください。
4つの軸:逐次・並列・探索・検証
推論時計算の積み方は、大きく4軸に整理できます。多くの実システムはこれらを組み合わせます。
| 軸 | 増やすもの | 効く原理 | 代表手法 |
|---|---|---|---|
| 逐次(生成延長) | 中間推論トークン数 | 実効的な計算深さを稼ぐ | 長い CoT |
| 並列(サンプリング) | 独立な経路の本数 N | 多数決・選別で分散を下げる | 自己整合性 / best-of-N |
| 探索 | 分岐・評価・後戻り | 誤りから回復し先読みする | ToT / MCTS |
| 検証 | 候補の採点・再評価 | 誤答を棄却し正答を残す | 検証器 / PRM |
逐次は最も基本で、思考の連鎖 を延ばして中間結果を文脈に外部化します。各ステップが新トークンとして KV キャッシュに積まれ、次段の条件付けに使われるため、逐次計算を生成長方向へ展開できます。
並列は独立な経路を N 本サンプリングし、集約します。集約が「最終解の多数決」なら自己整合性(self-consistency)、「検証器の点数が最高の候補を選ぶ」なら best-of-N です。鍵は「正解に至る道は複数あるが、誤りは経路ごとに散る」という非対称性で、これが票やスコアの集中を生みます。
best-of-N:
for k in 1..N:
候補_k = サンプリング生成(問題, 温度>0) # N本を独立生成
得点_k = 検証器(問題, 候補_k) # 各候補を採点
最終解 = 候補_argmax_k(得点_k) # 最高得点を採用
# 検証器の代わりに最終解の多数決 → self-consistency
探索は生成の途中で分岐・評価・**後戻り(バックトラック)を行い、木構造で解を探します。Tree-of-Thoughts(ToT)や、囲碁で知られるモンテカルロ木探索(MCTS)**を推論に適用する系統がこれにあたります。一本道の CoT は誤った枝に入ると戻れませんが、探索は評価とバックトラックで回復できます。代償は分岐数×深さに比例するモデル呼び出しです。
検証は候補を採点して選別する軸で、並列・探索の集約段として働きます。ステップ単位で採点する仕組みは プロセス報酬モデル で深掘りしていますが、本質は**「生成」と「検証」を分離**し、生成の広さを検証の確度で刈り込む点にあります。
多くの難問では検証は生成より易しい(解を出すのは難しいが、与えられた解の正否は確かめやすい)。この非対称性があるほど推論時スケーリングは効きます。数式の答え合わせや単体テストの合否のように機械的に検証できる領域が最も相性が良く、逆に検証が生成と同程度に難しい領域では、N を増やしても正答を選び出せず利得が伸び悩みます。
o1 型モデルの背景:長い思考を強化学習で獲得する
2024 年以降の o1 型の推論モデルは、推論時スケーリングをモデル自身の方策に内在化した点が新しさです。few-shot で外から CoT を促すのではなく、長い思考連鎖を生成しながら自己検証し、行き詰まれば方針を変えて後戻りするという振る舞いを、強化学習で後天的に獲得しています。この学習側の設計は GRPO/RLVR(検証可能報酬による推論強化)や RLHF と DPO の延長線上にあります。
決定的だったのは、思考トークン数(推論時計算)を増やすほど正答率が伸びるという、学習時とは別軸のスケーリング則が観測されたことです。両対数で見ると、推論に費やした計算と精度がおおむね直線的な関係を描きます。
学習時の法則: 精度 ↑ ∝ 学習計算(N・D)を増やす … 従来
推論時の法則: 精度 ↑ ∝ 思考トークン数・探索量を増やす … o1型で顕在化
両者は独立に効き、掛け合わせられる(学習を積み、さらに推論も積む)
o1 型が出力(あるいは内部で生成)する思考連鎖は、モデルが実際に行った計算の正直な説明とは限りません。もっともらしい後付けの「作文」が真の計算過程とずれることがあり、これを忠実性(faithfulness)の欠如と呼びます。「考えを読めば安全か判断できる」という前提でCoTをそのまま監視に使うのは危険で、思考列の説得力と正しさは別物として扱う必要があります。
計算と精度のスケーリング:予算をどう割り当てるか
推論時スケーリングを実務に落とすと、**「限られた推論予算を、逐次・並列・探索のどこに、どれだけ割くか」**という最適化問題になります。ここには2つの重要な経験則があります。
第一に 収穫逓減。並列サンプル数 N を増やすと、best-of-N の正答率は最初こそ急伸しますが、やがて飽和します。生成長も同様で、長くしすぎると過剰思考(overthinking)——簡単な問題に冗長な推論を強いて、かえって誤りを混入させる現象——が起きます。コストは N や生成長に線形に膨らむのに、精度向上は鈍化するため、無制限に積むのは非効率です。
第二に 難度に応じた予算配分(compute-optimal な割り当て)。易しい問題には少ない計算を、難しい問題には多くの計算を回すよう適応的に配分すると、固定配分より総コストあたりの精度が上がります。同じ総予算でも、割り当て方で到達精度が大きく変わる点は、スケーリング則 が学習側で示した「配分が損失を左右する」構図の推論版といえます。
| 論点 | 実態 | 設計への示唆 |
|---|---|---|
| N と精度 | best-of-N は伸びてやがて飽和 | N は費用対効果の折れ点で打ち切る |
| 生成長 | 長すぎると過剰思考で悪化 | 難度に応じ思考量を可変にする |
| 予算配分 | 難問へ多く回すと総効率が上がる | 適応的配分(易問は薄く) |
| 検証器の質 | 弱い検証器は best-of-N を頭打ちにする | 生成器より弱くない検証器を用意 |
best-of-N の上限は検証器の性能で決まります。N を増やすほど正答候補は候補集合に含まれやすくなりますが、検証器がそれを最高点に選べなければ意味がありません。むしろ検証器の系統的な偏りを N 本の中から「最も刺さる誤答」が突く報酬ハッキングが起き、N を増やすほど精度が下がることさえあります。だからこそ検証には、機械的に正否が定まる規則(正解照合・テスト合否)や、生成器と同等以上の判別力を持つモデルが求められます。関連は プロセス報酬モデル を参照してください。
まとめ:学習と推論、二つのスケーリングを掛け合わせる
推論時スケーリングは「長く考えさせる小技」ではなく、計算の出しどころを学習時から推論時へ移す設計判断です。要点を一枚に整理します。
| 論点 | 実態 | 示唆 |
|---|---|---|
| 位置づけ | 学習時スケーリングと直交する軸 | 同じ重みで推論予算により精度を調整 |
| 4つの軸 | 逐次・並列・探索・検証 | 難問ほど組み合わせの利得が大きい |
| o1型の背景 | 長い思考と自己検証をRLで内在化 | 推論トークン数で伸びる別軸の法則 |
| スケーリング | 収穫逓減があり配分が効く | 難度に応じた適応的な計算割り当て |
| 限界 | 忠実性なし・検証器依存・過剰思考 | 検証を強化し予算を積み過ぎない |
結論として、推論時スケーリングは学習時スケーリングを置き換えるものではなく掛け合わせるものです。よく学習したモデルに、問題の難度に見合った推論計算を、生成・探索・検証のどこに配るかまで含めて設計する——ここまで踏み込めると、同じモデルでも到達できる正答率が大きく変わります。土台となる仕組みは LLM と Transformer を、推論を引き出す前段は 思考の連鎖 を併読すると、点が線でつながります。
AI/機械学習 Article
推論時スケーリング(テスト時計算)を実務で読む
TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。
解決すること
推論時計算
比較で見る軸
難易度: advanced / カテゴリ: AI/機械学習 / タグ数: 6
導入後に効く点
手段は主に4軸。CoT を延ばす逐次計算、独立サンプルを多数決する並列計算(best-of-N・自己整合性)、分岐と後戻りを伴う探索(ToT・MCTS)、検証器で候補を選別する検証。学習は据え置いたまま計算量を増やすほど正答率が伸びる。
先に潰すリスク
用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。
- 難易度
- advanced
- カテゴリ
- AI/機械学習
- タグ数
- 6
判断チェックリスト
- 自社の用途が「推論時計算 / テスト時計算」に近いか確認する。
- 強みである「推論時スケーリング(テスト時計算)は、学習後にパラメータを増やすのではなく、1問あたりに使う推論計算(生成トークン数・サンプル本数・探索幅・検証回数)を増やして精度を上げる考え方。学習コストと推論コストのどちらに投資するかという設計判断になる。」が本当に評価軸になるか確認する。
- 注意点の「用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。」を運用で吸収できるか確認する。
- 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
- 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
- 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。