確率分布と指数型分布族の早見とは？仕組みと要点をわかりやすく解説

バラバラに見える分布を一つの型で束ねる

機械学習で出会う確率分布は、最初は無関係な道具の寄せ集めに見えます。二値ならベルヌーイ、多クラスならカテゴリカル、回帰の誤差ならガウス、カウントならポアソン、トピックの混合比ならディリクレ——。しかしこれらの大半は 指数型分布族（exponential family） という一つの統一形の特殊例にすぎません。この型を握ると、自然パラメータ・十分統計量・共役事前分布という三点が分布ごとに機械的に読み取れ、確率モデルの設計と推論が一望できるようになります。本稿はその早見図を、文章と表で組み立てます。

主要分布の系統：台と用途で枝分かれする

まず全体像です。分布は「確率変数が取る値の集合（台, support）」によって大きく枝分かれします。離散か連続か、有界か非有界か、単変量か多変量か、という軸で整理すると関係が見えてきます。

二値 {0,1} を扱うのが ベルヌーイ。その n 回反復の成功数が 二項分布。
K 個のカテゴリ {1,…,K} を扱うのが カテゴリカル。その n 回反復のカウントベクトルが 多項分布。
非負整数のカウント {0,1,2,…} を扱うのが ポアソン。
実数全体の連続値を扱うのが ガウス（正規分布）。多変量に拡張したのが多変量ガウス。
非負実数 (0,∞) の連続値（待ち時間・スケール）を扱うのが ガンマ。その特殊例が指数分布とカイ二乗分布。
区間 (0,1) の確率値そのものを扱うのが ベータ。その多次元版、確率ベクトル（単体）上の分布が ディリクレ。

ベータとディリクレは「確率を確率変数として扱う」点が肝で、後述の共役事前分布として登場します。ベルヌーイとカテゴリカルは、カテゴリ数 K を 2 にするとカテゴリカルがベルヌーイへ退化する、という包含関係にあります（カテゴリ数が 2 未満の分布は定義されません）。

極限でつながる分布たち

分布は孤立せず、パラメータの極限で互いに移り変わります。二項分布は試行回数 n を大きく、成功確率 p を小さく保ち n·p を一定にすると ポアソン分布 へ収束します（小さい確率の事象を多数試す極限）。さらに二項・ポアソンともに、平均が大きい領域では中心極限定理により ガウス分布 で近似できます。ガンマ分布は形状パラメータを大きくするとやはりガウスに近づきます。「離散のカウント → 連続のガウス」という橋がパラメータ空間に通っているわけです。

指数型分布族の統一形

ここが本稿の中核です。指数型分布族は、確率密度（質量）関数が次の形に書ける分布の総称です。

p(x | η) = h(x) · exp( η·T(x) − A(η) )

各要素の役割は固定されています。

η（イータ）：自然パラメータ（natural parameter）。分布を線形に動かすパラメータ。普段使う平均 μ や確率 p とは別物で、それらを変換した量になる。
T(x)：十分統計量（sufficient statistic）。データ x から推定に必要な情報を全て抽出した量。これさえあれば生データを捨ててよい。
A(η)：対数分配関数（log-partition function）。確率が 1 に積分されるよう正規化する項。A(η) = log ∫ h(x)·exp(η·T(x)) dx。
h(x)：基底測度（base measure）。x のみに依存し、パラメータを含まない土台部分。

η·T(x) は内積で、自然パラメータと十分統計量が複数あれば総和になります。重要なのは、分布族の違いがこの4要素の中身だけに集約される点です。たとえば平均 μ・分散 σ² のガウス分布を展開すると、自然パラメータは η = [μ/σ², −1/(2σ²)]、十分統計量は T(x) = [x, x²] という対応で読み取れます。ベルヌーイなら、自然パラメータは η = log(p/(1−p))（ロジットそのもの）、十分統計量は T(x) = x です。ロジスティック回帰やソフトマックスが自然に現れるのは、これらの分布が指数型分布族で、自然パラメータが線形予測子に対応するからにほかなりません。

分布	台（取る値）	自然パラメータ η	十分統計量 T(x)
ベルヌーイ	{0,1}	log(p/(1−p))（ロジット）	x
カテゴリカル	{1..K}	log(p_k)（各カテゴリ）	one-hot ベクトル
ポアソン	{0,1,2,…}	log(λ)	x
ガウス	実数全体	[μ/σ², −1/(2σ²)]	[x, x²]
ガンマ	(0,∞)	[形状−1, −率]	[log x, x]
指数分布	(0,∞)	−率 λ	x

対数分配関数がモーメントを生む

A(η) は単なる正規化定数ではなく、十分統計量のキュムラント母関数という強力な性質を持ちます。A(η) を自然パラメータで微分するだけで、分布のモーメントが芋づる式に出てきます。

∂A/∂η      = E[ T(x) ]        # 1階微分 → 十分統計量の期待値
∂²A/∂η²    = Var[ T(x) ] ≥ 0  # 2階微分 → 分散（必ず非負）

2階微分が分散で必ず非負ということは、A(η) が η について 凸関数 だという意味です。この凸性が、後述する最尤推定の目的関数を凹（最大化しやすい）にし、解の一意性を支えます。凸最適化が機械学習で扱いやすい理由の一端はここにあります（凸性と収束の一般論は凸最適化と収束）。

最尤推定もこの枠組みで簡潔に書けます。独立同分布のデータ {x_1,…,x_n} の対数尤度を η で微分してゼロと置くと、次の モーメントマッチング 条件に帰着します。

E_model[ T(x) ] = (1/n)·Σ_i T(x_i)
（モデルが定める期待値）  （データの十分統計量の平均）

つまり最尤推定とは「モデルの理論的な期待値を、データから計算した十分統計量の平均に一致させる」操作です。ガウスなら標本平均・標本二次モーメントを合わせること、ベルヌーイなら成功割合を合わせることと一致し、馴染みの公式が統一原理から再導出されます。最尤推定が事前分布をどう扱うかは最尤推定とMAP・ベイズの関係で整理した通りで、本稿の指数型分布族はその尤度側の構造を与えます。

共役事前分布：事後が同じ族に閉じる

ベイズ推論では、事前分布 p(θ) に観測の尤度 p(D|θ) を掛けて事後分布 p(θ|D) を得ます。一般にはこの事後分布は複雑な形になり、解析的に扱えません。ところが事前分布をうまく選ぶと、事後分布が事前と同じ分布族に収まる ことがあります。この事前を 共役事前分布（conjugate prior） と呼びます。

指数型分布族には必ず共役事前分布が存在し、それも指数型分布族の形をしています。共役性の御利益は決定的です。事後分布の更新が、事前のパラメータに十分統計量を足し込むだけの単純な代数になり、積分を解かずに閉じた形で逐次更新できます。

観測モデル（尤度）	共役事前分布	事後分布	更新の直観
ベルヌーイ／二項	ベータ Beta(a,b)	ベータ	成功数を a に、失敗数を b に加算
カテゴリカル／多項	ディリクレ Dir(α)	ディリクレ	各カテゴリのカウントを α に加算
ポアソン	ガンマ Gamma(a,b)	ガンマ	総カウントを a に、観測数を b に加算
ガウス（平均, 分散既知）	ガウス	ガウス	事前と尤度の精度で加重平均
ガウス（分散, 平均既知）	逆ガンマ	逆ガンマ	二乗残差を蓄積
多変量ガウス（精度）	ウィシャート	ウィシャート	散布行列を蓄積

最も直観的なのがベータ＝ベルヌーイの対です。コイン投げの成功確率 p に事前 Beta(a,b) を置き、成功 s 回・失敗 f 回を観測すると、事後はちょうど Beta(a+s, b+f) になります。事前パラメータ a, b は「観測前に仮想的に見たことにする成功・失敗の回数（疑似カウント）」と読め、データが増えるほど事前の影響が相対的に薄れていく様子が、そのまま数式に現れます。カテゴリカル＝ディリクレの対は、これを K 個のカテゴリへ一般化したもので、ナイーブベイズ分類器のスムージング（ラプラス平滑化）はディリクレ事前の疑似カウントとして厳密に説明できます。

ディリクレ分布が「分布の分布」である意味

ディリクレ分布は、合計が 1 になる確率ベクトル (p_1,…,p_K)（確率単体上の点）を確率変数とする分布です。つまり「カテゴリカル分布のパラメータそのもの」を生成する一段上の分布で、トピックモデル（LDA）の文書ごとのトピック比率や、混合モデルの混合比の事前として中心的に使われます。集中度パラメータ α を小さくすると確率質量が単体の頂点（どれか一つのカテゴリに集中）へ寄り、大きくすると一様（均等な混合）へ寄る、というスパース性の制御が一つのパラメータで効くのが利点です。

指数型分布族に入らない分布もある

すべての分布が指数型分布族に収まるわけではありません。代表例が、自由度パラメータを未知としたときの スチューデントのt分布 や 混合ガウス分布 です。これらは台がパラメータに依存しなかったり十分統計量が有限次元で書けたりしないため、統一形に乗りません。一様分布 Uniform(0,θ) のように、台の端 θ 自体がパラメータの場合も外れます。「正規化に必要な情報が有限個の十分統計量に圧縮できるか」が、族に入るか否かの実質的な判定基準になります。混合分布の推論には変分推論やEMが要る理由もここにあります（変分推論とELBO）。

まとめ：自然パラメータと共役性で読み解く

確率分布の早見図は、三つの言葉で圧縮できます。第一に 統一形 p(x)=h(x)·exp(η·T(x)−A(η))——主要分布は自然パラメータ η・十分統計量 T(x)・基底測度 h(x) の違いだけで区別されます。第二に 対数分配関数 A(η)——その微分が期待値と分散を生み、凸性を通じて最尤推定をモーメントマッチング（モデルの期待値とデータの十分統計量を一致させる）へ単純化します。第三に 共役事前分布——ベルヌーイ↔ベータ、カテゴリカル↔ディリクレ、ポアソン↔ガンマという固定の対で、事後分布が同じ族に閉じ、更新が疑似カウントの加算に帰着します。

概念	正体	実務での効き目
自然パラメータ η	分布を線形に動かす変換後パラメータ	ロジット・ソフトマックスが線形予測子に対応する根拠
十分統計量 T(x)	推定に必要な情報を圧縮した量	生データを捨て統計量だけ保持できる／最尤推定の対象
対数分配関数 A(η)	十分統計量のキュムラント母関数	微分で期待値・分散、凸性で最適化のしやすさ
共役事前分布	事後が同族に閉じる事前	積分不要の閉形式ベイズ更新／スムージングの根拠

この三点を握ると、一つ一つの分布を暗記する代わりに「この観測モデルの自然パラメータは何で、共役事前はどれか」と機械的に問えるようになります。分類器の出力層がソフトマックスである理由、ナイーブベイズのスムージングの正体、トピックモデルがディリクレを使う必然——いずれも指数型分布族という一枚の地図の上に整列します。次の一歩としては、この尤度構造を点推定・ベイズ推論へつなぐ最尤推定とMAP・ベイズの関係、情報量の言葉で分布のズレを測る情報理論の基礎を併せて読むと、確率モデルの設計原理が一枚の絵にまとまります。

確率分布と指数型分布族の早見

バラバラに見える分布を一つの型で束ねる

主要分布の系統：台と用途で枝分かれする

指数型分布族の統一形

対数分配関数がモーメントを生む

共役事前分布：事後が同じ族に閉じる

まとめ：自然パラメータと共役性で読み解く

確率分布と指数型分布族の早見を実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点