最尤推定とMAP推定・ベイズ推論の関係
MLE・MAP・ベイズが別物に見えて実は一本の階段だと分かれば、L2正則化がガウス事前・L1がラプラス事前だと数式で腑に落ち、損失設計の根拠が手に入ります。
- 1.MLEは尤度だけ、MAPは尤度に事前分布を掛けた事後分布の最頻値、ベイズは事後分布そのものを保持する。三者は「事前をどう扱うか」で連続的につながる。
- 2.重み減衰(L2正則化)はガウス事前のMAP、L1正則化はラプラス事前のMAPとして厳密に導ける。正則化係数は事前分布の分散の逆数に対応する。
- 3.MAPは事後分布の1点だけを使うが、ベイズ予測分布は事後全体で積分するため不確実性を取り込める。データが少ないほど両者の差が大きくなる。
三者を貫く一本の式:尤度・事前・事後
機械学習のパラメータ推定は、見た目のバラバラさに反して、ベイズの定理という一つの式の上に整列します。観測データ D とパラメータ θ について、ベイズの定理は次を主張します。
p(θ | D) = p(D | θ)·p(θ) / p(D)
事後分布 尤度 事前分布 周辺尤度(証拠)
- 尤度
p(D | θ):パラメータθを固定したとき、観測Dがどれだけ起こりやすいか。 - 事前分布
p(θ):データを見る前に持っているθへの信念。 - 事後分布
p(θ | D):データを見た後に更新されたθへの信念。 - 周辺尤度
p(D):θを積分消去した正規化定数。θに依存しないので、θの最大化では無視できる。
最尤推定(MLE)・MAP推定・ベイズ推論の違いは、この式の どこまでを使うか に尽きます。MLEは尤度だけ、MAPは尤度かける事前(=事後の分子)、ベイズは事後分布そのものを丸ごと扱う。三者は対立する流派ではなく、事前分布の扱いを段階的に深めていく一本の階段です。
MLE:尤度だけを最大化する
最尤推定は事前分布を一切仮定せず、尤度を最大にする θ を選びます。独立同分布のデータ D = {x_1, …, x_n} に対して尤度は積で書け、対数を取って和に直すのが定石です。
θ_MLE = argmax_θ Σ_i log p(x_i | θ)
積を対数で和に変えるのは、桁あふれを避け、微分を項ごとに分解するためです。実務では負の対数尤度(NLL)を最小化する形で現れます。分類の交差エントロピー、回帰の二乗誤差はどちらもこのNLLの具体形であり、その導出は 損失関数の数理 で扱った通りです。MLEは「データが語ることだけを信じる」立場で、データが豊富なら強力ですが、サンプルが少ないと過学習しやすいという弱点があります。
MAP:事前分布を掛けて事後を最大化する
MAP(Maximum A Posteriori, 最大事後確率)推定は、尤度に事前分布を掛けた事後分布を最大化します。周辺尤度 p(D) は θ に依存しない定数なので、最大化からは外せます。
θ_MAP = argmax_θ p(θ | D)
= argmax_θ p(D | θ)·p(θ)
= argmax_θ [ Σ_i log p(x_i | θ) + log p(θ) ]
最後の行が決定的です。MLEの目的関数(第1項)に、事前分布の対数 log p(θ)(第2項)が 加算項として くっつくだけ。この第2項こそが、後で見る通り正則化の正体です。
事前分布 p(θ) を一様分布(無情報事前)に取ると log p(θ) は θ によらない定数になり、MAPの目的関数からその項が消えてMLEと完全に一致します。つまりMLEは「事前を平坦と置いたMAP」の特殊例です。逆にデータ数 n が増えると第1項(データ項)が n に比例して大きくなる一方、事前項は n によらず一定なので、相対的に事前の影響が薄れ、MAPはMLEへ漸近します。事前は「データが少ないときに効く下駄」だと捉えると本質がつかめます。
L2正則化=ガウス事前のMAP
ここが本稿の山場です。線形回帰や深層学習の重み w に、平均ゼロのガウス事前 p(w) = N(0, τ²·I) を置いてみます。各成分が独立な正規分布なので、その対数は次のように展開できます。
log p(w) = − (1/(2τ²))·Σ_j w_j² + const
= − (1/(2τ²))·‖w‖₂² + const
これをMAPの目的関数に入れると、最大化を最小化(負号を付ける)に直したとき、データ項に (1/(2τ²))·‖w‖₂² が足されます。これはまさに係数 λ = 1/(2τ²) の L2正則化(重み減衰) そのものです。
min_w [ NLL(w) + λ·‖w‖₂² ], λ = 1/(2τ²)
正則化係数 λ が事前分布の分散 τ² の逆数に対応する点が美しいところです。事前の分散を小さく(τ² を小さく)すると「重みはゼロ付近にあるはず」という信念が強まり、λ が大きくなって正則化が強くかかる。逆に τ² を無限大にすると λ → 0 となり、事前が平坦になってMLEに戻ります。
L1正則化=ラプラス事前のMAP
事前分布をガウスからラプラス分布 p(w) ∝ exp(−|w| / b)(各成分独立)に取り替えると、対数事前は絶対値の和になります。
log p(w) = − (1/b)·Σ_j |w_j| + const
= − (1/b)·‖w‖₁ + const
同じ手順で目的関数に入れると、係数 λ = 1/b の L1正則化 が現れます。
min_w [ NLL(w) + λ·‖w‖₁ ], λ = 1/b
| 正則化 | 対応する事前分布 | 罰則項 | 係数の意味 | 効果 |
|---|---|---|---|---|
| L2(Ridge) | ガウス N(0, τ²) | ‖w‖₂² | λ = 1/(2τ²) | 重みを一様に小さく縮める |
| L1(Lasso) | ラプラス exp(−|w|/b) | ‖w‖₁ | λ = 1/b | 重みをゼロに張り付かせ疎にする |
| なし | 一様(無情報) | なし | λ = 0 | MLEと一致 |
L1がスパース(ゼロが多い)解を生むのは、ラプラス分布が原点に鋭いピークを持つことの帰結です。原点で対数事前が尖っている(微分が不連続)ため、最適化は多くの成分を厳密にゼロへ押し込みます。一方ガウス事前は原点で滑らかなので、重みを小さくはしてもゼロには張り付けません。L1とL2の幾何学的・確率的な違いは 正則化(過学習対策) でも整理しています。
MAPは事後分布の「最頻値(モード)」を選びますが、モードはパラメータの取り方(再パラメータ化)で変わります。たとえば θ でモードを取るのと log θ でモードを取るのとでは、一般に異なる点を指します。確率密度は変数変換でヤコビアンが掛かるためです。ベイズ予測分布のように事後全体で積分する量はこの問題を持ちません。MAPは「点推定としての簡便さ」と引き換えに、この不変性を犠牲にしていると理解しておくべきです。
ベイズ予測分布:1点で代表させず積分する
MLEもMAPも、最終的に θ を 1点 に決めて予測します。これに対し完全なベイズ推論は、θ を1点に固定せず、事後分布で重み付けして積分(周辺化)します。新しい入力 x* に対する予測は次の ベイズ予測分布 になります。
p(x* | D) = ∫ p(x* | θ)·p(θ | D) dθ
この積分は、ありうる全ての θ での予測を、それぞれの事後確率で加重平均する操作です。MAPはこの積分を「事後の最頻値 θ_MAP の1点だけで近似する」極端なケースに相当します(事後をデルタ関数で置き換える近似)。
| 観点 | MLE | MAP | ベイズ予測分布 |
|---|---|---|---|
| 使う情報 | 尤度のみ | 尤度 + 事前(事後の最頻値) | 事後分布の全体 |
| 出力 | 点推定 θ_MLE | 点推定 θ_MAP | 予測分布 p(x*|D) |
| 正則化 | なし | 事前が正則化として作用 | 事前を自然に内包 |
| 不確実性 | 捉えない | 捉えない | 事後の広がりとして定量化 |
| 計算コスト | 低 | 低(罰則付き最適化) | 高(積分・近似が必要) |
両者の差はデータ量で決まります。データが多ければ事後分布は θ_MAP の周りに鋭く尖り、積分はほぼ1点の値に等しくなるので、ベイズ予測分布とMAPの予測はほぼ一致します。逆にデータが少ないと事後が広がり、複数の θ がそれなりの確率を持つため、1点では代表できません。このとき積分は予測のばらつき(認識的不確実性)を自然に取り込みます。
ベイズ予測分布の積分はガウス線形モデルなど一部を除いて解析的に解けません。そこで事後分布を近似する技術が要ります。事後をガウスで近似する変分推論(その下界ELBOの考え方は VAE の数理 と同じ骨格)、事後からサンプルを引くMCMC、複数モデルの平均で近似するディープアンサンブルなどが代表例です。深層学習で「不確実性が欲しい」場面の多くは、この積分をいかに安く近似するかという問題に帰着します。
まとめ:事前をどこまで信じ、どこまで積分するか
| 手法 | 最大化/計算する量 | 事前の扱い | 一言で |
|---|---|---|---|
| MLE | 尤度 p(D|θ) | 使わない(平坦) | データだけを信じる点推定 |
| MAP | 事後の分子 p(D|θ)·p(θ) | 罰則として加算 | 正則化付き点推定 |
| ベイズ | 事後で積分した p(x*|D) | 積分に内包 | 不確実性まで含む分布推定 |
三者は競合する流派ではなく、ベイズの定理という一本の式の上で「事前をどう扱い、事後をどこまで使うか」という連続的な選択です。MLEに事前項を足せばMAPになり、L2正則化=ガウス事前・L1正則化=ラプラス事前という対応で、正則化は確率的な信念の表明だと読み替えられます。さらに点推定をやめて事後全体で積分すればベイズ予測分布になり、不確実性が手に入ります。この階段を上り下りできると、損失関数の設計(損失関数の数理)や生成モデルの学習目標(スコアベース生成モデル)が、同じ確率的原理の別表現として一望できるようになります。
AI/機械学習 Article
最尤推定とMAP推定・ベイズ推論の関係を実務で読む
TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。
解決すること
最尤推定
比較で見る軸
難易度: advanced / カテゴリ: AI/機械学習 / タグ数: 5
導入後に効く点
重み減衰(L2正則化)はガウス事前のMAP、L1正則化はラプラス事前のMAPとして厳密に導ける。正則化係数は事前分布の分散の逆数に対応する。
先に潰すリスク
用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。
- 難易度
- advanced
- カテゴリ
- AI/機械学習
- タグ数
- 5
判断チェックリスト
- 自社の用途が「最尤推定 / MAP推定」に近いか確認する。
- 強みである「MLEは尤度だけ、MAPは尤度に事前分布を掛けた事後分布の最頻値、ベイズは事後分布そのものを保持する。三者は「事前をどう扱うか」で連続的につながる。」が本当に評価軸になるか確認する。
- 注意点の「用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。」を運用で吸収できるか確認する。
- 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
- 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
- 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。