情報理論の基礎:エントロピー・KL・相互情報量
交差エントロピー損失もKL正則化も対照学習も、根っこは情報理論の3つの量です。エントロピー・KL・相互情報量を一本の筋で押さえれば、機械学習の目的関数が「測りたい不確実性」として読めるようになります。
- 1.エントロピーは分布の不確実性(最適符号の平均ビット長)、交差エントロピーは「真の分布pのデータを、別の分布qの符号で表したときのビット長」。両者の差がKLダイバージェンスで、CE = Entropy(p) + KL(p‖q) という恒等式で繋がる。
- 2.KLは非負だが非対称(KL(p‖q)≠KL(q‖p))。順方向KLは分布を広く覆う(mean-seeking)、逆方向KLは1つの峰に潰れる(mode-seeking)。VAEや変分推論・蒸留・RLHFで「どちらのKLを使うか」が挙動を決める。
- 3.相互情報量 I(X;Y) は「Yを知るとXの不確実性がどれだけ減るか」で、I(X;Y)=H(X)−H(X|Y)=KL(p(x,y)‖p(x)p(y))。表現学習・対照学習(InfoNCE)・特徴選択の理論的土台になっている。
なぜ機械学習に情報理論なのか
交差エントロピー損失、VAE の KL 項、知識蒸留の温度付き KL、RLHF の KL ペナルティ、対照学習の InfoNCE——機械学習の目的関数には、情報理論の量が至るところに顔を出します。これらをバラバラの道具として暗記すると、なぜその形なのかが見えません。実はすべてエントロピー・KLダイバージェンス・相互情報量という3つの量の組み合わせで記述できます。本稿はこの3つを定義から統一的に整理し、機械学習の目的関数を「何の不確実性を測っているのか」という言葉で読めるようにします。
本稿は情報量そのものの定義と性質に集中します。「なぜ分類は交差エントロピー損失なのか」を最尤推定から導く話は 損失関数の数理 に、KL を実際に最小化する変分推論の具体例は VAE の数理(ELBO) に譲ります。本稿はその土台となる「量の定義」を担当します。
エントロピー:不確実性の最小符号長
確率分布 p のエントロピー H(p) は、その分布が持つ不確実性の量であり、同時にその分布のサンプルを符号化するのに必要な平均ビット長の下限です。離散分布なら次で定義されます。
H(p) = −Σ_x p(x) · log2 p(x) # 単位:ビット(log2 のとき)
−log2 p(x) は「確率 p(x) の事象が起きたときの情報量(驚き, surprisal)」です。めったに起きない事象(p(x) が小さい)ほど情報量が大きく、必ず起きる事象(p(x)=1)の情報量は 0。エントロピーはこの情報量を分布で平均したものです。一様分布で最大、決定的な分布(どれか1つが確率1)で 0 になります。対数の底を 2 にすればビット、自然対数 ln にすれば単位はナット(nat)になり、機械学習の実装は微分の都合で ln(nat)を使うのが普通です。
情報量を −log p と定義するのは恣意ではありません。「独立な2つの事象が同時に起きたときの情報量は、各情報量の和であってほしい」(加法性)と要求すると、確率の積を和に変える関数、すなわち対数が一意に選ばれます。−log(p_a · p_b) = −log p_a − log p_b。この加法性こそ、尤度の積を対数尤度の和に変える操作と同じ構造で、情報理論と最尤推定が地続きである理由です。
交差エントロピーとKL:ズレを測る
交差エントロピー H(p, q) は、「真の分布が p であるデータを、別の分布 q 用に設計した符号で表したときの平均ビット長」です。
H(p, q) = −Σ_x p(x) · log q(x)
q が真の p と一致していれば、これは H(p) に等しく最小になります。q が p からズレるほど、符号が非効率になり長くなる。この「ズレによる余分なビット長」こそが KLダイバージェンス KL(p‖q) です。両者は次の恒等式で結ばれます。
H(p, q) = H(p) + KL(p ‖ q)
KL(p ‖ q) = Σ_x p(x) · log( p(x) / q(x) ) ≥ 0
KL は常に非負(ギブスの不等式)で、p = q のときだけ 0 になります。だから「p と q のズレの尺度」として使えます。ここで重要なのは、H(p) は真の分布だけで決まり、学習対象のパラメータには依存しない定数だという点です。したがって q を p に近づける学習では、交差エントロピーの最小化と KL の最小化は完全に等価になります。分類で交差エントロピー損失を下げる行為は、モデル分布を経験分布へ寄せる KL 最小化に他なりません(導出の詳細は 損失関数の数理)。
KL を「距離」と呼ぶのは誤りです。第一に非対称で KL(p‖q) ≠ KL(q‖p)。第二に三角不等式を満たしません。さらに p(x) > 0 なのに q(x) = 0 の点が1つでもあると KL(p‖q) は無限大に発散します(log(p/0))。実装で確率が 0 になりうる箇所には、ラベルスムージングやイプシロン下駄、ロジット経由の log-sum-exp で 0 を踏まないようにするのが定石です。
順方向KLと逆方向KL:どちらを最小化するか
KL が非対称であることは、単なる注意書きではなくモデルの挙動を左右する設計判断です。真の分布 p を、扱いやすい近似分布 q(例:単峰のガウス)で近似する状況を考えます。
- 順方向 KL
KL(p‖q)(mean-seeking, 包括的):p(x)が大きい場所でq(x)が小さいと激しく罰せられる。qはpの全ての峰を覆おうとし、谷を跨いで広く平均的に広がる。最尤推定(経験分布pを固定してqを動かす)はこちら側。 - 逆方向 KL
KL(q‖p)(mode-seeking, 排他的):q(x)が大きい場所でp(x)が小さいと罰せられる。qはpの峰の1つに潜り込んで潰れる。多峰のpに単峰qを当てると、どれか1つの峰だけを拾う。
| 観点 | 順方向 KL(p‖q) | 逆方向 KL(q‖p) |
|---|---|---|
| 挙動 | mean-seeking(全峰を覆う) | mode-seeking(1峰に集中) |
| pが0でqが正の点 | 罰せられない(過剰に広がる) | 強く罰せられる |
| 代表的な使い所 | 最尤推定・教師あり蒸留 | 変分推論・VAE の ELBO・RLHF |
| 多峰pへの単峰近似 | 峰の間にぼやけて広がる | どれか1つの峰を選ぶ |
変分推論や VAE が逆方向 KL KL(q‖p) を使うのは、計算可能性に加え、この mode-seeking 性質が「もっともらしい1つの解」を返すために都合がよいからです。一方 RLHF の KL ペナルティは、学習後のポリシーが元の参照モデルから逸脱しすぎないよう拘束する正則化として効きます(RLHF と DPO)。どちらの向きを使うかで、近似のクセが正反対になることを押さえておくべきです。
相互情報量:2つの変数が共有する情報
相互情報量 I(X; Y) は、「Y を知ることで X の不確実性がどれだけ減るか」を測ります。3通りの等価な表現があり、それぞれが直観を与えます。
I(X; Y) = H(X) − H(X | Y) # Y を知った分の不確実性の減少
= H(X) + H(Y) − H(X, Y) # 重なり(情報のベン図)
= KL( p(x, y) ‖ p(x)·p(y) ) # 同時分布と独立の積のズレ
3番目の表現が本質的です。相互情報量は同時分布 p(x,y) が「独立だったら」の積分布 p(x)p(y) からどれだけ離れているかの KLです。だから I(X;Y) ≥ 0、そして X と Y が独立なときだけ 0。Y を観測しても X の不確実性が一切減らない、というのが独立の情報理論的な意味です。条件付きエントロピー H(X|Y) = −Σ p(x,y) log p(x|y) は「Y を知った後に残る X の平均不確実性」で、必ず H(X|Y) ≤ H(X)(条件付けは平均的に不確実性を減らす)が成り立ちます。
相関係数が捉えるのは線形の依存関係だけで、Y = X²(X は対称分布)のような非線形依存では相関が 0 になりえます。しかしこのとき Y は X について明確な情報を持つため、相互情報量は正です。相互情報量は線形・非線形を問わずあらゆる統計的依存を捉える点で、相関より強力な依存性の尺度です。その代償として、連続変数では密度比の推定が難しく、直接計算は一般に困難になります。
機械学習における相互情報量
相互情報量は表現学習の目的関数として中心的な役割を果たします。良い表現 Z(埋め込み)とは、入力 X の本質的な情報を保つもの、すなわち I(X; Z) が大きいものだ、という発想です。ただし I を直接最大化するのは密度比推定の難しさから困難なため、実務では下界を最大化します。
その代表が対照学習で使われる InfoNCE で、これは相互情報量の変分下界になっています。正例ペア(同じ画像の別ビューなど)の類似度を、多数の負例の中で相対的に高めるソフトマックス分類の形を取り、これを最小化すると I(X; Z) の下界が押し上がる、という構造です。負例の数を増やすほど下界が締まる(バウンドがタイトになる)のは、この変分下界の性質から説明できます。検索や ベクトルデータベース で使う埋め込みの「意味的な近さ」が、こうした相互情報量最大化の副産物として獲得されるわけです。
| 量 | 定義の核 | 機械学習での主な役割 |
|---|---|---|
| エントロピー H(p) | −Σ p log p(不確実性/最小符号長) | 正則化(出力を尖らせない最大エントロピー)、探索の促進 |
| 交差エントロピー H(p,q) | −Σ p log q | 分類の損失関数。経験分布 p をモデル q で符号化するコスト |
| KL(p‖q) | Σ p log(p/q)(非負・非対称) | 蒸留・変分推論・RLHF 正則化。分布のズレの最小化 |
| 相互情報量 I(X;Y) | KL(p(x,y)‖p(x)p(y)) | 表現学習・対照学習(InfoNCE)・特徴選択の目的関数 |
まとめ:3つの量が目的関数を貫く
情報理論の3つの量は独立した知識ではなく、一本の鎖で繋がっています。情報量 −log p を分布で平均すればエントロピー、別の分布の符号で測ればクロスエントロピー、その差がKL、そして同時分布と独立積のKLが相互情報量です。この鎖を握ると、機械学習の目的関数がまったく違って見えます。分類の交差エントロピー損失は「経験分布をモデルで符号化するコスト」、蒸留や RLHF の KL 項は「2つの分布の制御されたズレ」、対照学習は「入力と表現が共有する情報の最大化」——すべて「何の不確実性を、どの分布基準で測るか」という一言で読めるようになります。次の一歩としては、この KL を実際に最小化する変分推論の具体形を VAE の数理(ELBO) で、損失そのものの最尤推定的な正体を 損失関数の数理 で確認すると、定義と応用が一枚の絵になります。
AI/機械学習 Article
情報理論の基礎:エントロピー・KL・相互情報量を実務で読む
TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。
解決すること
情報理論
比較で見る軸
難易度: advanced / カテゴリ: AI/機械学習 / タグ数: 5
導入後に効く点
KLは非負だが非対称(KL(p‖q)≠KL(q‖p))。順方向KLは分布を広く覆う(mean-seeking)、逆方向KLは1つの峰に潰れる(mode-seeking)。VAEや変分推論・蒸留・RLHFで「どちらのKLを使うか」が挙動を決める。
先に潰すリスク
用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。
- 難易度
- advanced
- カテゴリ
- AI/機械学習
- タグ数
- 5
判断チェックリスト
- 自社の用途が「情報理論 / エントロピー」に近いか確認する。
- 強みである「エントロピーは分布の不確実性(最適符号の平均ビット長)、交差エントロピーは「真の分布pのデータを、別の分布qの符号で表したときのビット長」。両者の差がKLダイバージェンスで、CE = Entropy(p) + KL(p‖q) という恒等式で繋がる。」が本当に評価軸になるか確認する。
- 注意点の「用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。」を運用で吸収できるか確認する。
- 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
- 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
- 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。