情報理論の基礎：エントロピー・KL・相互情報量

なぜ機械学習に情報理論なのか

交差エントロピー損失、VAE の KL 項、知識蒸留の温度付き KL、RLHF の KL ペナルティ、対照学習の InfoNCE——機械学習の目的関数には、情報理論の量が至るところに顔を出します。これらをバラバラの道具として暗記すると、なぜその形なのかが見えません。実はすべてエントロピー・KLダイバージェンス・相互情報量という3つの量の組み合わせで記述できます。本稿はこの3つを定義から統一的に整理し、機械学習の目的関数を「何の不確実性を測っているのか」という言葉で読めるようにします。

この記事の射程と隣接記事

本稿は情報量そのものの定義と性質に集中します。「なぜ分類は交差エントロピー損失なのか」を最尤推定から導く話は損失関数の数理に、KL を実際に最小化する変分推論の具体例は VAE の数理（ELBO）に譲ります。本稿はその土台となる「量の定義」を担当します。

エントロピー：不確実性の最小符号長

確率分布 p のエントロピー H(p) は、その分布が持つ不確実性の量であり、同時にその分布のサンプルを符号化するのに必要な平均ビット長の下限です。離散分布なら次で定義されます。

H(p) = −Σ_x  p(x) · log2 p(x)      # 単位：ビット（log2 のとき）

−log2 p(x) は「確率 p(x) の事象が起きたときの情報量（驚き, surprisal）」です。めったに起きない事象（p(x) が小さい）ほど情報量が大きく、必ず起きる事象（p(x)=1）の情報量は 0。エントロピーはこの情報量を分布で平均したものです。一様分布で最大、決定的な分布（どれか1つが確率1）で 0 になります。対数の底を 2 にすればビット、自然対数 ln にすれば単位はナット（nat）になり、機械学習の実装は微分の都合で ln（nat）を使うのが普通です。

情報量が対数である必然性

情報量を −log p と定義するのは恣意ではありません。「独立な2つの事象が同時に起きたときの情報量は、各情報量の和であってほしい」（加法性）と要求すると、確率の積を和に変える関数、すなわち対数が一意に選ばれます。−log(p_a · p_b) = −log p_a − log p_b。この加法性こそ、尤度の積を対数尤度の和に変える操作と同じ構造で、情報理論と最尤推定が地続きである理由です。

交差エントロピーとKL：ズレを測る

交差エントロピー H(p, q) は、「真の分布が p であるデータを、別の分布 q 用に設計した符号で表したときの平均ビット長」です。

H(p, q) = −Σ_x  p(x) · log q(x)

q が真の p と一致していれば、これは H(p) に等しく最小になります。q が p からズレるほど、符号が非効率になり長くなる。この「ズレによる余分なビット長」こそが KLダイバージェンス KL(p‖q) です。両者は次の恒等式で結ばれます。

H(p, q) = H(p) + KL(p ‖ q)
KL(p ‖ q) = Σ_x  p(x) · log( p(x) / q(x) )   ≥ 0

KL は常に非負（ギブスの不等式）で、p = q のときだけ 0 になります。だから「p と q のズレの尺度」として使えます。ここで重要なのは、H(p) は真の分布だけで決まり、学習対象のパラメータには依存しない定数だという点です。したがって q を p に近づける学習では、交差エントロピーの最小化と KL の最小化は完全に等価になります。分類で交差エントロピー損失を下げる行為は、モデル分布を経験分布へ寄せる KL 最小化に他なりません（導出の詳細は損失関数の数理）。

KLは距離ではない：非対称性と発散

KL を「距離」と呼ぶのは誤りです。第一に非対称で KL(p‖q) ≠ KL(q‖p)。第二に三角不等式を満たしません。さらに p(x) > 0 なのに q(x) = 0 の点が1つでもあると KL(p‖q) は無限大に発散します（log(p/0)）。実装で確率が 0 になりうる箇所には、ラベルスムージングやイプシロン下駄、ロジット経由の log-sum-exp で 0 を踏まないようにするのが定石です。

順方向KLと逆方向KL：どちらを最小化するか

KL が非対称であることは、単なる注意書きではなくモデルの挙動を左右する設計判断です。真の分布 p を、扱いやすい近似分布 q（例：単峰のガウス）で近似する状況を考えます。

順方向 KL KL(p‖q)（mean-seeking, 包括的）：p(x) が大きい場所で q(x) が小さいと激しく罰せられる。q は p の全ての峰を覆おうとし、谷を跨いで広く平均的に広がる。最尤推定（経験分布 p を固定して q を動かす）はこちら側。
逆方向 KL KL(q‖p)（mode-seeking, 排他的）：q(x) が大きい場所で p(x) が小さいと罰せられる。q は p の峰の1つに潜り込んで潰れる。多峰の p に単峰 q を当てると、どれか1つの峰だけを拾う。

観点	順方向 KL(p‖q)	逆方向 KL(q‖p)
挙動	mean-seeking（全峰を覆う）	mode-seeking（1峰に集中）
pが0でqが正の点	罰せられない（過剰に広がる）	強く罰せられる
代表的な使い所	最尤推定・教師あり蒸留	変分推論・VAE の ELBO・RLHF
多峰pへの単峰近似	峰の間にぼやけて広がる	どれか1つの峰を選ぶ

変分推論や VAE が逆方向 KL KL(q‖p) を使うのは、計算可能性に加え、この mode-seeking 性質が「もっともらしい1つの解」を返すために都合がよいからです。一方 RLHF の KL ペナルティは、学習後のポリシーが元の参照モデルから逸脱しすぎないよう拘束する正則化として効きます（RLHF と DPO）。どちらの向きを使うかで、近似のクセが正反対になることを押さえておくべきです。

相互情報量：2つの変数が共有する情報

相互情報量 I(X; Y) は、「Y を知ることで X の不確実性がどれだけ減るか」を測ります。3通りの等価な表現があり、それぞれが直観を与えます。

I(X; Y) = H(X) − H(X | Y)                    # Y を知った分の不確実性の減少
        = H(X) + H(Y) − H(X, Y)              # 重なり（情報のベン図）
        = KL( p(x, y) ‖ p(x)·p(y) )          # 同時分布と独立の積のズレ

3番目の表現が本質的です。相互情報量は同時分布 p(x,y) が「独立だったら」の積分布 p(x)p(y) からどれだけ離れているかの KLです。だから I(X;Y) ≥ 0、そして X と Y が独立なときだけ 0。Y を観測しても X の不確実性が一切減らない、というのが独立の情報理論的な意味です。条件付きエントロピー H(X|Y) = −Σ p(x,y) log p(x|y) は「Y を知った後に残る X の平均不確実性」で、必ず H(X|Y) ≤ H(X)（条件付けは平均的に不確実性を減らす）が成り立ちます。

相関と相互情報量の違い（混同しやすい核心）

相関係数が捉えるのは線形の依存関係だけで、Y = X²（X は対称分布）のような非線形依存では相関が 0 になりえます。しかしこのとき Y は X について明確な情報を持つため、相互情報量は正です。相互情報量は線形・非線形を問わずあらゆる統計的依存を捉える点で、相関より強力な依存性の尺度です。その代償として、連続変数では密度比の推定が難しく、直接計算は一般に困難になります。

機械学習における相互情報量

相互情報量は表現学習の目的関数として中心的な役割を果たします。良い表現 Z（埋め込み）とは、入力 X の本質的な情報を保つもの、すなわち I(X; Z) が大きいものだ、という発想です。ただし I を直接最大化するのは密度比推定の難しさから困難なため、実務では下界を最大化します。

その代表が対照学習で使われる InfoNCE で、これは相互情報量の変分下界になっています。正例ペア（同じ画像の別ビューなど）の類似度を、多数の負例の中で相対的に高めるソフトマックス分類の形を取り、これを最小化すると I(X; Z) の下界が押し上がる、という構造です。負例の数を増やすほど下界が締まる（バウンドがタイトになる）のは、この変分下界の性質から説明できます。検索やベクトルデータベースで使う埋め込みの「意味的な近さ」が、こうした相互情報量最大化の副産物として獲得されるわけです。

量	定義の核	機械学習での主な役割
エントロピー H(p)	−Σ p log p（不確実性／最小符号長）	正則化（出力を尖らせない最大エントロピー）、探索の促進
交差エントロピー H(p,q)	−Σ p log q	分類の損失関数。経験分布 p をモデル q で符号化するコスト
KL(p‖q)	Σ p log(p/q)（非負・非対称）	蒸留・変分推論・RLHF 正則化。分布のズレの最小化
相互情報量 I(X;Y)	KL(p(x,y)‖p(x)p(y))	表現学習・対照学習(InfoNCE)・特徴選択の目的関数

まとめ：3つの量が目的関数を貫く

情報理論の3つの量は独立した知識ではなく、一本の鎖で繋がっています。情報量 −log p を分布で平均すればエントロピー、別の分布の符号で測ればクロスエントロピー、その差がKL、そして同時分布と独立積のKLが相互情報量です。この鎖を握ると、機械学習の目的関数がまったく違って見えます。分類の交差エントロピー損失は「経験分布をモデルで符号化するコスト」、蒸留や RLHF の KL 項は「2つの分布の制御されたズレ」、対照学習は「入力と表現が共有する情報の最大化」——すべて「何の不確実性を、どの分布基準で測るか」という一言で読めるようになります。次の一歩としては、この KL を実際に最小化する変分推論の具体形を VAE の数理（ELBO）で、損失そのものの最尤推定的な正体を損失関数の数理で確認すると、定義と応用が一枚の絵になります。

情報理論の基礎：エントロピー・KL・相互情報量

なぜ機械学習に情報理論なのか

エントロピー：不確実性の最小符号長

交差エントロピーとKL：ズレを測る

順方向KLと逆方向KL：どちらを最小化するか

相互情報量：2つの変数が共有する情報

機械学習における相互情報量

まとめ：3つの量が目的関数を貫く

情報理論の基礎：エントロピー・KL・相互情報量を実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点