ニューラルタンジェントカーネル（NTK）と無限幅理論

なぜNTKを考えるのか：非凸の壁

ニューラルネットの損失曲面は激しく非凸です。にもかかわらず、単純な勾配降下法が大域的にうまく機能する——この理論的な謎に答える有力な枠組みが ニューラルタンジェントカーネル（Neural Tangent Kernel, NTK） です。Jacot ら（2018）が示したのは、ネットの幅を無限に広げる極限で学習ダイナミクスが劇的に単純化し、固定されたカーネルによる線形回帰に収束するという事実でした。非凸問題が、解析可能な凸問題へと化けるのです。

鍵は「幅を広げると、各パラメータが出力に与える影響が相対的に小さくなる」点にあります。パラメータ数が膨大なので、関数を望む形に動かすのに各重みはごくわずかしか動かなくてよい。結果として、ネットは初期重みの近傍だけで振る舞い、非線形性が学習中に顔を出さなくなります。

ネットワークの線形化：1次テイラー展開

出力を f(x; θ)（入力 x、パラメータ θ）とします。学習中に θ が初期値 θ0 からほとんど動かないなら、θ0 まわりの1次テイラー展開で十分です。

f(x; θ) ≈ f(x; θ0) + ∇θ f(x; θ0)ᵀ (θ − θ0)
                     ~~~~~~~~~~~~~~~~~~~~~~~
                     パラメータについて線形

ここで重要なのは、f は入力 x については依然として非線形でも、パラメータ θ については線形になっている点です。∇θ f(x; θ0)（出力のパラメータ勾配）を固定された特徴ベクトルとみなせば、これは特徴写像 φ(x) = ∇θ f(x; θ0) を持つ線形モデルにほかなりません。線形モデルの損失（二乗誤差）は θ について凸——ここで非凸の壁が消えます。

この特徴写像から定まる核が NTK です。

Θ(x, x') = ∇θ f(x; θ0)ᵀ ∇θ f(x'; θ0)
         = 2つの入力に対する「出力勾配」の内積

Θ(x, x') は2入力の応答がどれだけ連動して動くかを測ります。これは SVM とカーネルトリックと同じ「特徴空間の内積＝カーネル」の構図ですが、特徴を人手で選ぶのではなくネットの構造（層・活性化・初期化）が自動的に定める点が違います。

無限幅で核が「固定」される理由

有限幅では θ が動けば特徴 ∇θ f も動き、NTK も時間変化します。ところが幅 → 無限の極限では、(1) 大数の法則で初期化時の Θ がランダム性を失い決定的な値に収束し、(2) 学習中の各重みの移動量が幅とともに 0 に近づくため Θ がほぼ時間不変になります。核が初期化で決まり訓練中に変わらない——これが NTK 理論の土台です。適切な分散スケールでの重みの初期化は、この極限が成立する前提条件でもあります。

学習ダイナミクスがカーネル回帰に化ける

線形化したモデルに勾配流（連続時間の勾配降下）を適用すると、関数空間での訓練誤差の進化が閉じた線形微分方程式で書けます。訓練点での残差ベクトルを r(t) = f(t) − y とすると、

dr/dt = −Θ_train · r(t)
  Θ_train = 訓練点どうしで作る NTK 行列（グラム行列, n×n）
→ r(t) = exp(−Θ_train t) · r(0)

残差は NTK 行列の固有モードごとに指数的に減衰します。固有値が大きい方向（典型的には滑らかな成分）ほど速く学習され、小さい方向は遅い——これが「ネットは低周波・滑らかな関数を先に当てる」という観察の理論的説明になります。十分に学習すれば、未知点 x* の予測はカーネル回帰の閉形式に一致します。

f(x*) = Θ(x*, X) · Θ_train⁻¹ · y
  X = 訓練入力, y = 訓練ラベル

つまり無限幅ネットを勾配降下で学習する＝固定カーネル Θ によるカーネル回帰を解くことと等価になります（上式は正則化項を持たないリッジレス＝補間解で、勾配流を収束させた極限に対応します。早期停止や明示的な正則化を加えればリッジ回帰になります）。学習結果が初期化と最適化のダイナミクスだけで解析的に決まり、収束も汎化も既存のカーネル理論で議論できる——これが NTK の威力です。

試験・面接の勘所

「NTKとは何か」と問われたら——出力のパラメータ勾配どうしの内積で定まるカーネル Θ(x,x') = ∇θf(x)ᵀ∇θf(x') と答えます。続けて主張を3点：(1) 無限幅極限で Θ は初期化で決まり訓練中に不変、(2) 学習はパラメータについて線形化され、カーネル回帰と等価、(3) 残差は dr/dt = −Θr に従い固有モードごとに指数減衰。キーワードは「線形化」「固定核」「遅延学習」。

遅延学習（lazy training）と特徴学習

NTK 極限の本質は 遅延学習（lazy training） にあります。訓練を通じて重みが初期値からほとんど動かず、各層の内部表現（特徴）も初期化されたままほぼ凍結される領域です。学習しているのは「凍った特徴の線形結合」だけで、特徴そのものは学習されません。

これが有限幅の実ネットとの決定的な違いです。実際のディープラーニングの強さは、層を重ねてデータに適応した表現を獲得すること——すなわち特徴学習（feature learning） にあります。NTK 極限はその能力を捨てた領域なのです。両者を対比します。

観点	遅延学習（NTK 極限）	特徴学習（有限幅・実ネット）
重みの移動	初期値からごく僅か（ほぼ凍結）	大きく動き表現を作り替える
内部表現	初期化のまま固定	データに適応して獲得・変化
等価モデル	固定カーネルによる線形回帰	非線形・適応的で閉形式なし
損失曲面	実質的に凸（解析可能）	非凸（局所構造が本質的）
転移・事前学習	効果を説明できない	獲得表現の再利用が効く
典型的な性能	良いカーネル法と同等止まり	多くのタスクでカーネルを上回る

どちらの領域に入るかは初期化のスケールで制御できます。出力スケールを大きく取る（または学習率を絞る）と相対的な重み移動が小さくなり遅延学習に、逆に標準的なスケールで幅が有限だと特徴学習に近づきます。Chizat と Bach（2019）は、この「遅延 vs 豊か（rich）」のレジームを初期化スケールの連続的パラメータで橋渡しできることを示しました。

NTK は「下界」、特徴学習は「上積み」

実用上の直感として、NTK 性能は特徴を学習しないネットが到達できる水準の目安と捉えると有用です。実ネットがそれを上回る分が、まさに表現獲得（特徴学習）の寄与です。両者の差を測ることで、あるタスクで「表現学習がどれだけ効いているか」を切り分けられます。

NTK の限界：実ネットの強さは極限の外にある

NTK は強力ですが、実ネットの説明としては不完全です。原理から限界を押さえます。

第一に、特徴学習を捨てている。前述の通り NTK 極限は表現が凍る領域で、転移学習・事前学習・段階的な抽象化といった実ネットの中核能力を構造的に説明できません。実際、NTK が示す純粋なカーネル回帰は、同規模の有限幅ネットに性能でしばしば及びません。

第二に、近似が破れる場面が多い。NTK は「重みがほとんど動かない」前提に立ちますが、現実の学習では重みは大きく動き、NTK 自体が訓練中に変化します。学習率が大きい、訓練が長い、初期化スケールが小さい——こうした実務的な設定はいずれも遅延学習から遠ざかり、NTK の予測精度を下げます。

第三に、幅の有限性が効く。NTK は厳密には無限幅の理想で、有限幅では核がランダムに揺らぎ、訓練中に進化します。皮肉にも、この「揺らぎ・進化」こそが特徴学習の源泉であり、有限幅ネットが NTK を超える余地そのものです。なお、過剰パラメータ化と汎化の関係についてはバイアス・バリアンスと二重降下も併せて見ると、NTK が捉える側面と捉えない側面が立体的に見えてきます。

“ネット＝カーネル回帰”の早合点に注意

NTK は「十分広いネットは（ある極限で）カーネル法に過ぎない」と読めますが、これを実ネット一般の結論に拡張するのは誤りです。NTK が厳密に成り立つのは無限幅かつ遅延学習レジームに限られ、そこでは表現を一切学習しません。現代のディープラーニングの成功（スケール則・転移・基盤モデル）は、むしろ NTK が破れる特徴学習レジームで起きています。NTK は「下限と収束を保証する道具」であって、「実ネットの上限を与える理論」ではありません。

まとめ：解ける極限と、解きたい現実

NTK 理論は、ニューラルネットを解析可能な極限へ写し取ることで、非凸最適化がなぜ機能するのかに明快な答えを与えました。要点を整理します。

論点	NTK が語ること	実務・理論への含意
線形化	幅 → 無限でパラメータについて線形化	非凸が実質的に凸へ。収束を保証できる
固定核	Θ が初期化で決まり訓練中に不変	学習＝固定カーネルによる回帰と等価
ダイナミクス	残差は `dr/dt = −Θr` で指数減衰	滑らかな成分から先に学習される
遅延学習	重みも特徴もほぼ凍結	表現は獲得されない（カーネル法相当）
限界	特徴学習・転移を説明できない	実ネットの強さは NTK 極限の外側

結論として、NTK は「幅を無限に広げると、ネットは初期重みまわりで線形化され、固定カーネル Θ によるカーネル回帰に収束する」という美しい等価性を確立し、収束と汎化に厳密な土台を与えました。一方でその極限は特徴を学習しない遅延学習の世界であり、転移や表現獲得といった現代ディープラーニングの本質はそこから外れた領域にあります。NTK は「解ける極限」、現実の実ネットは「解きたいが解けていない特徴学習レジーム」——両者の落差こそが、いま学習理論が埋めようとしている最前線です。背景にある凸性と最適化保証は凸最適化の収束を、ネット側の基礎はニューラルネットワークを合わせて読むと、NTK の立ち位置がより鮮明になります。

ニューラルタンジェントカーネル（NTK）と無限幅理論

なぜNTKを考えるのか：非凸の壁

ネットワークの線形化：1次テイラー展開

学習ダイナミクスがカーネル回帰に化ける

遅延学習（lazy training）と特徴学習

NTK の限界：実ネットの強さは極限の外にある

まとめ：解ける極限と、解きたい現実

ニューラルタンジェントカーネル（NTK）と無限幅理論を実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点