グロッキング（Grokking）と遅延汎化の謎

グロッキングとは何か

通常の学習では、訓練誤差とテスト誤差は歩調を合わせて下がります。ところがある条件下では、訓練精度が早々に100%へ達し過学習に見えた後、何千〜何万ステップも経ってから突然テスト精度が跳ね上がる——この遅延汎化を グロッキング（grokking） と呼びます。Power ら（2022）が小さなアルゴリズム的タスク（モジュラ加算など）で報告して以来、「いつ・なぜ汎化が訪れるか」を最小構成で問う格好の実験系になりました（→ 過学習と汎化）。

“暗記してから理解する”という奇妙な順序

グロッキングの核心は時間差です。モデルはまず訓練データを暗記して訓練損失をゼロ近くまで落とし、しばらく汎化しないまま停滞します。その後、明確な相転移としてテスト性能が立ち上がる。「先に暗記、遅れて汎化」というこの順序こそが説明すべき謎です。

典型的な実験設定

最も研究された設定は、素数 p を法とするモジュラ演算（例：(a + b) mod p）の学習です。入力は (a, b) の組、出力は法 p での剰余で、全 p*p 通りのうち一部を訓練、残りをテストに回します。小さな Transformer や MLP に、しばしば強めの 重み減衰 を効かせて長時間回します。

要素	典型的な選択	グロッキングへの寄与
タスク	モジュラ加算・乗算など代数的タスク	汎化解が構造（周期性）を持ち回路解析が可能
データ分割	全組合せの30〜50%を訓練	暗記で訓練を埋めつつ汎化余地を残す
正則化	重み減衰（やや強め）	遅延汎化の主要な引き金
学習時間	暗記後さらに数千〜数万ステップ	相転移が起きるまで観測を続ける必要

ポイントは、訓練が0損失に達した後も学習を止めない ことです。早期終了で打ち切るとグロッキングは観測できず、「過学習したまま」に見えてしまいます。

重み減衰が遅延汎化を駆動する

グロッキングの主役は多くの場合 重み減衰（L2正則化） です。直感は次の通りです。訓練データを正しく分類する解は1つではなく、暗記解 と 汎化解 という質の異なる解が共存し得ます。両者は訓練損失こそほぼ同じでも、重みのノルム（大きさ）が大きく異なる のが鍵です（→ 正則化（過学習対策））。

学習の二段階（重み減衰ありの典型像）

  段階1: データ項の損失を最小化
     → まず暗記解に到達（訓練0損失）。ノルムは大きいまま。
     → テストは伸びず、見かけ上の過学習で停滞。

  段階2: 訓練0損失を保ったまま重み減衰がノルムを削る
     → 高ノルムの暗記解は維持コストが高く不利。
     → 低ノルムで同じ訓練損失を出せる汎化解へ移行。
     → ノルムが閾値を割った付近でテスト精度が相転移的に上昇。

重み減衰は損失に「ノルムを小さくせよ」という圧力を足します。訓練損失を0に保てる解空間の中で、最適化は徐々に より小さいノルムの解 へ滑り込みます。暗記は個々のデータ点を覚え込むため一般に大きな重みを要し、汎化解は構造を再利用するため小さな重みで足りる——だから重み減衰は 汎化解を選好 し、その移行が完了したときに汎化が立ち上がります。

重み減衰は“なくてもよい”が条件は厳しくなる

重み減衰はグロッキングの十分条件に近い引き金ですが、唯一の経路ではありません。正則化なしでも、初期重みのスケールやデータ量しだいで遅延汎化が現れる報告があります。逆に重み減衰を強めるほど相転移は早まる傾向があり、汎化遅延の長さは正則化強度に敏感です。「重み減衰が必須」ではなく「汎化解のノルムが暗記解より小さいことが本質」と捉えるのが正確です。

暗記回路と汎化回路：解釈可能性からの裏づけ

なぜ汎化解が「小さいノルムで同じ訓練損失」を達成できるのか。解釈可能性研究はモジュラ加算で具体像を与えました。汎化したネットワークは、入力を 三角関数的な周期表現 に埋め込み、剰余演算を 周波数の合成 として実装することが回路解析で示されています（Nanda ら, 2023）。cos と sin で a, b を角度に写し、加法定理で a+b の角度を作り、最後に正しい剰余へ射影する——これは離散的な暗記テーブルより遥かに コンパクト（低ノルム） な解です（→ 誘導ヘッドと解釈可能性）。

観点	暗記回路	汎化回路
何を学ぶか	訓練ペアの個別対応表	周期的・代数的な構造
重みノルム	大きい（点ごとに係数が必要）	小さい（構造を再利用）
テスト挙動	未知ペアに無力	未知ペアへ外挿可能
重み減衰下の運命	ノルム圧力で淘汰される	ノルム圧力に生き残る

この回路像により、グロッキングは「謎」から 測定可能な相転移 へ格上げされました。学習中に汎化回路の寄与（特定周波数の振幅など）を進捗指標として追うと、テスト精度の急上昇に先んじて回路が徐々に形成され、ある点で支配的になる様子が観測できます。「突然に見える汎化」は、内部では 連続的に育っていた回路が表面化した瞬間 だった、というわけです。

なぜ「相転移」に見えるのか

汎化が滑らかでなく階段状に見えるのは、性能指標が回路の 連続的な強度 ではなく 離散的な正解/不正解 を測るためでもあります。汎化回路の振幅が閾値を超えて初めて多数の未知ペアが一斉に正解へ転じるため、テスト精度は急峻に立ち上がります。内部表現の連続変化と、出力指標の離散的なジャンプの乖離が、相転移的な外観を生みます。

内部（連続）         汎化回路の振幅が徐々に増大 ────────►
出力指標（離散）     ………不正解…………│一斉に正解化│正解
                                       ↑ここで急上昇＝“相転移”に見える

二重降下との関係・違い

グロッキングは二重降下と混同されがちですが軸が違います。二重降下は主に モデル容量（やデータ量） に対するテスト誤差の非単調性で、暗黙の正則化が滑らかな解を選ぶ話。グロッキングは 訓練時間（ステップ） に沿った遅延汎化で、明示的な重み減衰が暗記から汎化への移行を駆動する話です。両者とも「暗記解と汎化解の競合を正則化が裁定する」という共通構造を持ちますが、観測する軸（容量 vs 時間）が異なります。

実務への含意と注意点

グロッキングは小さな代数的タスクで最も鮮明に出る現象であり、大規模な実問題でそのまま再現するとは限りません。とはいえ示唆は明確です。

“過学習に見える”を早合点しない

訓練損失が0で停滞していても、内部では汎化回路が育っている途中かもしれません。早期終了の閾値や学習打ち切りの判断は、テスト指標が頭打ちになった理由が暗記固定なのか回路形成の途上なのか を区別してから下すべきです。代数的・規則的な構造を持つタスクほど、長時間学習＋適切な重み減衰で遅延汎化が報われる可能性があります。

実装上の要点を整理します。第一に、訓練0損失の到達は終わりではなく観測の始点 とみなし、汎化が立ち上がる余地のある時間まで回す。第二に、重み減衰の強度 が遅延の長さと相転移の有無を強く左右するため、汎化が見えないときは正則化を見直す。第三に、可能なら 重みノルムや特定の表現指標 を進捗の代理指標として併走させ、精度のジャンプを事前に察知する。

まとめ

問い	グロッキングの答え
何が起きるか	訓練飽和の後、遅れてテスト精度が相転移的に急上昇
なぜ遅れるか	まず暗記解に落ち、重み減衰がノルムを削るのに時間がかかる
何が引き金か	多くは重み減衰。本質は汎化解のノルムが暗記解より小さいこと
内部で何が育つか	周期的・代数的な汎化回路（モジュラ加算ではフーリエ的表現）
なぜ急に見えるか	連続的に育つ回路が、離散的な正解指標で閾値超え時に表面化

グロッキングは、訓練0損失の達成と汎化の獲得が 別の出来事 であることを最小構成で突きつけます。暗記解と汎化解はノルムで隔てられ、重み減衰がその間を裁定して低ノルムの汎化解へ移行を促す——その移行が完了した瞬間に汎化が相転移として現れます。解釈可能性が周期表現の回路形成を可視化したことで、「謎」は連続的な内部変化と離散的な出力指標の乖離という、説明可能な現象へと姿を変えつつあります。

グロッキング（Grokking）と遅延汎化の謎

グロッキングとは何か

典型的な実験設定

重み減衰が遅延汎化を駆動する

暗記回路と汎化回路：解釈可能性からの裏づけ

なぜ「相転移」に見えるのか

実務への含意と注意点

まとめ

グロッキング（Grokking）と遅延汎化の謎を実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点