誘導ヘッドと機械論的解釈可能性とは？仕組みと要点をわかりやすく解説

機械論的解釈可能性とは何か

機械論的解釈可能性（mechanistic interpretability） は、学習済みモデルの重みと活性を逆コンパイルし、「どの部品がどの計算を担っているか」を人間が読めるアルゴリズムとして復元する研究分野です。性能指標を眺めるブラックボックス評価とは逆で、Transformer の内部に回路（circuit）——特定タスクを実装する重みの部分グラフ——を見つけ出すことを目指します。その最も成功した事例が、本記事の主役である**誘導ヘッド（induction head）**です。

土台として、マルチヘッドアテンションと位置エンコーディングで見たとおり、各層は複数のアテンションヘッドを並列に持ちます。解釈可能性では各ヘッドを「トークン間で情報をコピーする独立した読み書き装置」とみなします。アテンションは softmax(QKᵀ/√d_k)·V で「どこを見るか（QK 回路）」と「何を運ぶか（OV 回路）」に分離でき、この2つを別々に解析するのが鍵です（Self-Attention の式の導出を参照）。

誘導ヘッド：パターン補完の回路

誘導ヘッドが実装するアルゴリズムは驚くほど単純です。系列のどこかに [A][B] という並びがあり、後でもう一度 [A] が現れたとき、「前回 A の次に来たトークン B」を次の出力として補完する。記号で書けば次の規則です。

... [A] [B] ... [A] → [B]

これは「直前の繰り返しを探して、その続きをコピーする」という、文脈依存のパターンマッチです。実データでは「Mr. Dursley ... Mr.」の後に「Dursley」を当てる、コード中で一度定義した変数名を再出力する、といった形で働きます。重みに焼き付いた固定知識ではなく、いまプロンプト内にある対応関係を使うため、これこそがインコンテキスト学習の仕組みを支える中核機構になります。

なぜ「最低2層」必要なのか

誘導は1つのヘッドでは実装できません。再出現した [A] の位置で「過去に A の直後へ来たトークン」を見るには、まず各位置に「自分の直前は何だったか」という情報が書き込まれていなければならない。この前処理を1層目が担い、それを照合する本体を2層目が担うため、最低2層・2ヘッドの連携が要ります。1層だけのモデルでは誘導ヘッドは出現しません。

2段構成のメカニズム：前トークンヘッドと誘導ヘッド

回路は次の2つのヘッドの連携で成り立ちます。

1層目: 前トークンヘッド（previous-token head）
   位置 t のトークンに「直前トークン(t-1)の情報」を残差ストリームへ書き込む

2層目: 誘導ヘッド（induction head）
   現在位置の [A] を Query に、
   「直前が A だった位置」を Key として照合 → その位置の Value をコピー

ポイントは2層目の Q-K 照合が位置ではなく内容で行われることです。前トークンヘッドのおかげで、[B] の位置には「私の直前は A だった」という痕跡が乗っています。再出現した [A] はこの痕跡を持つ位置を探し当て、そこ（= 前回の [B] の位置）に注目して [B] を読み出す。注目先を決める照合が「いまのトークン」と「過去トークンの直前情報」のマッチで起きるこの様式を、**K-composition（鍵側の合成）**と呼びます。1層目の出力が2層目の Key 計算の入力に合成される、という意味です。

QK回路とOV回路を分けて読む

誘導ヘッドの「どこを見るか」は QK 回路が決め、「何を運ぶか」は OV 回路が決めます。誘導では OV 回路がコピーとして働く——注目した位置のトークン表現をほぼそのまま出力語彙へ写すよう学習します。QK が「対応位置の発見」、OV が「忠実なコピー」と役割が綺麗に分離しているため、回路として読み解きやすいのです。

相転移として現れる：学習ダイナミクス

誘導ヘッドは、訓練の特定タイミングで**相転移（phase change）**的に立ち上がります。学習曲線をなめらかに眺めると見落としますが、in-context での損失だけを抜き出すと、ある狭いステップ区間で急落する「段差」が現れます。この段差の前後で、ランダムだったアテンションパターンが突然「直前を見る」「対応位置を見る」という構造を獲得します。

観点	相転移より前	相転移より後
in-context 損失	高止まり（文脈を活用できない）	急落（数例から補完できる）
アテンション形状	拡散的・位置依存	前トークン／対応位置に鋭く集中
誘導スコア	ほぼ0	特定ヘッドで急上昇
獲得される能力	n-gram 的な丸暗記	パターン一般化・コピー

重要なのは、この相転移のタイミングと in-context 学習能力の立ち上がりが一致することです。誘導ヘッドの形成を測る「誘導スコア（繰り返し系列で対応位置にどれだけ注目するか）」が跳ねる瞬間に、モデルは少数例から汎化する力を得ます。これは「ICL は誘導ヘッドが担う計算機構によって創発する」という主張の強い状況証拠になっています。

重ね合わせ（superposition）という壁

回路を読み解こうとすると、すぐに壁にぶつかります。1つのニューロンが複数の無関係な概念に反応する多義性（polysemanticity）です。理想的には1ニューロン=1概念（単義, monosemantic）であってほしいのに、現実のモデルはそうなっていません。

この原因が重ね合わせ（superposition）です。モデルが表現したい特徴の数は、利用できる次元数より遥かに多い。d 次元の空間には直交基底が d 本しか取れませんが、ほぼ直交なベクトルなら（Johnson-Lindenstrauss の補題が示すとおり）指数的に多く詰め込めます。そこでモデルは、滅多に同時発火しないスパースな特徴群を、互いに小さな干渉を許しながら1つの次元方向に重ねて符号化します。

活性ベクトル ≈ Σ (特徴の強度 × その特徴の方向ベクトル)
         特徴数 ≫ 次元数、各方向はほぼ直交

結果として、ニューロン基底（座標軸）と意味のある特徴方向がずれ、軸を1本ずつ眺めても意味が読めません。これが解釈可能性の根本的な難所です。

次元削減では解けない理由

PCA など分散最大の方向を取る手法は、重ね合わせをほどけません。重ね合わせの特徴は分散の大小ではなくスパース性で詰め込まれており、しかも特徴数が次元数を超える「過完備」状態だからです。正しく分解するには、次元を増やしてでもスパースな基底を学ぶ別の道具が要ります。

SAE：スパースオートエンコーダによる特徴分解

その道具がスパースオートエンコーダ（Sparse Autoencoder, SAE）です。発想は明快で、活性を元の次元より多い過完備な辞書へ写し、その表現がごく少数しか発火しないよう制約をかけて学習します。

z = ReLU(W_enc · x + b_enc)     # x: モデル活性, z: 過完備な特徴(辞書サイズ ≫ dim x)
x̂ = W_dec · z + b_dec           # z から元の活性を再構成
loss = ‖x - x̂‖² + λ · ‖z‖₁      # 再構成誤差 + L1 スパース罰則

L1 罰則（または上位 k 個だけ残す TopK 型）が z をスパースに保つため、重ね合わせで潰れていた特徴が個別の次元へほどけます。学習後の各特徴を「どんな入力で発火するか」で観察すると、「アラビア語のテキスト」「電話番号の局番」「肯定的な感情」「特定の API 呼び出し」といった人間が名付けられる単義の概念に対応していることが分かります。SAE は教師なしで、しかも辞書を大規模化（数百万特徴）すれば、より細かい概念まで分離できます。

性質	生のニューロン基底	SAE で得た特徴
1次元あたりの意味	多義的（複数概念が混在）	単義的（1概念に対応しやすい）
次元数	モデル幅に固定	過完備（元の数倍〜数十倍）
発火の密度	密（多くが常時活動）	疎（少数だけ発火）
介入のしやすさ	効果が他概念へ漏れる	特定特徴を狙って増減できる

特徴を読むだけでなく操作できる

SAE の真価は、特徴方向が分かると因果的な介入ができる点にあります。ある特徴の係数を強制的に上げ下げして再構成・順伝播すれば、出力がその概念へ偏る／消える。観察（相関）に留まらず「この特徴が出力を引き起こしている」を介入で確かめられるため、回路仮説の検証手段になります。

解釈可能性研究の現在地と限界

誘導ヘッドが「読み解ける回路」の理想形だったのに対し、現実のモデルの大半の振る舞いはまだ回路に落ちていません。SAE は重ね合わせをほどく強力な手段ですが、(1) 再構成誤差が残り情報が欠落する、(2) 辞書サイズや罰則の取り方で得られる特徴が変わる、(3) 特徴間をつなぐ回路全体の自動抽出は依然難しい、といった課題があります。それでも「ニューロンの代わりに単義特徴を基本単位に据える」という方向は、大規模モデルの内部を体系的に地図化する現実的な道筋として定着しつつあります。

押さえどころ

誘導ヘッドの規則：[A][B]...[A]→[B]。文脈内の対応をコピーする、ICL の中核機構。
2層必要な理由：前トークンヘッドが直前情報を書き込み、誘導ヘッドが内容ベースで照合する K-composition。1層では不可能。
相転移：誘導スコアの跳ね上がりと in-context 損失の急落が同時に起きる。
重ね合わせ：特徴数 > 次元数をほぼ直交ベクトルで実現。多義性の原因。
SAE：過完備＋L1（または TopK）で活性を単義特徴へ分解。介入による因果検証が可能。

まとめ

誘導ヘッドは、Transformer の内部に人間が読めるアルゴリズムが確かに存在することを示した決定的な事例です。前トークンヘッドと誘導ヘッドの2段連携が [A][B]...[A]→[B] を実装し、その形成が相転移として現れ、in-context 学習能力の立ち上がりと一致する——ここまでが「回路として完全に説明できた」希少な成功例でした。一方で大半のニューロンは重ね合わせのために多義的で、そのままでは読めません。スパースオートエンコーダで活性を単義特徴へほどき、介入で因果を確かめる流れが、いま解釈可能性の主戦場になっています。より広い文脈はインコンテキスト学習はなぜ起きるのかと、表現空間の幾何を扱う埋め込みの幾何学も合わせて参照してください。

誘導ヘッドと機械論的解釈可能性

機械論的解釈可能性とは何か

誘導ヘッド：パターン補完の回路

2段構成のメカニズム：前トークンヘッドと誘導ヘッド

相転移として現れる：学習ダイナミクス

重ね合わせ（superposition）という壁

SAE：スパースオートエンコーダによる特徴分解

解釈可能性研究の現在地と限界

まとめ

誘導ヘッドと機械論的解釈可能性を実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点