生成モデルの系統図：VAE・GAN・拡散・自己回帰

系統図を貫く2本の軸

生成モデルは「データの分布 p(x) を学び、そこから新しい標本を作る」という共通の目的を持ちます。乱立して見える手法も、次の2軸に射影すると一枚の地図に収まります。

軸	問い	両端
尤度の扱い	p(x) を式として評価できるか	明示（密度を計算できる） ↔ 暗黙（標本は出せるが密度は計算しない）
生成方式	1つの標本をどう作るか	逐次（次の要素を順に） / 一発（1パスで全体） / 反復（ノイズを段階的に除去）

「尤度を明示する」とは、ある標本 x に対して p(x)（または対数尤度）を数値として計算できることを指します。これができれば、最尤推定で素直に学習でき、生成物の「もっともらしさ」も測れます。できない＝暗黙のモデルは、p(x) を経由せず標本だけを生成する経路を学びます。この差が、学習の安定性・評価指標・得意分野のすべてを規定します。

4系統の位置づけ

主要4系統を2軸の座標に置くと、次のように分かれます。

系統	尤度の扱い	生成方式	中核アイデア
自己回帰（AR）	厳密な明示尤度	逐次（1要素ずつ）	p(x) を条件付き確率の積に分解し連鎖律で厳密に評価
VAE	近似の明示尤度（下界）	一発（潜在 z をデコード）	潜在変数を導入し、対数尤度の変分下界を最大化
GAN	暗黙尤度（評価しない）	一発（潜在 z をデコード）	生成器と識別器を競わせ、密度を経由せず分布を学ぶ
拡散	変分の明示尤度（下界）	反復（ノイズを段階除去）	データを壊す固定過程の逆を学び、ノイズから復元

自己回帰と VAE と拡散は「明示」側にあり、対数尤度（またはその下界）を目的関数に書けます。GAN だけが「暗黙」側で、p(x) を一切評価しません。生成方式では、自己回帰だけが逐次（要素を順番に出す）であり、VAE と GAN は潜在ベクトル z を1パスで標本へ写す一発生成、拡散は同じネットワークを何度も通す反復生成です。

「明示か暗黙か」が評価指標を決める

明示モデルは保持データの対数尤度（パープレキシティ等）で直接評価できます。暗黙モデルである GAN は尤度が無いため、FID（生成分布と実分布の距離）のような外部指標に頼らざるを得ません。「なぜ GAN だけ評価が難しいか」は、この尤度の不在に起因します。

系統ごとの内部動作

自己回帰モデル（厳密尤度・逐次）

連鎖律で p(x) = p(x_1)·p(x_2 | x_1)·…·p(x_n | x_1…x_{n-1}) と厳密に分解し、各条件付き分布をネットワークで予測します。集合 {x_1, …, x_n} を1つずつ埋めていくため、対数尤度を近似なしで最尤推定でき、学習が安定します。

学習：各位置で「次の要素」の確率分布を予測し、正解との交差エントロピーを最小化
生成：x_1 を引く → それを条件に x_2 を引く → … と逐次サンプリング

弱点は生成が逐次で、長さ n の標本に n 回の前向き計算が要る点です。テキストの主流である LLMとTransformer はこの系統で、Transformer により条件付き分布を高精度に表現します。

VAE（近似尤度・一発）

潜在変数 z を導入し、p(x) を直接ではなく対数尤度の下界（ELBO）で最大化します。エンコーダが x を z の分布へ写し、デコーダが z から x を再構成します。

ELBO = 再構成項（z から x をどれだけ復元できるか）
       − KL項（近似事後分布を事前分布 N(0, I) へ寄せる正則化）

z が連続で滑らかな潜在空間を作るため、補間や圧縮に強い一方、再構成がぼやけやすい傾向があります。現在は単体生成より、拡散モデルが働く圧縮済み潜在空間を用意する「符号化器」として中核的に使われます。

GAN（暗黙尤度・一発）

生成器 G がノイズ z を画像へ写し、識別器 D が本物と生成物を見分けます。両者を競わせ、D を騙せるよう G を訓練します。

D：本物を本物、生成物を偽物と当てるよう学習
G：D に本物と誤認させるよう学習（この勾配だけが G を動かす）

p(x) を一度も評価せず、標本品質を D の判定で間接的に押し上げるのが「暗黙」たるゆえんです。一発生成で高速かつ鮮鋭ですが、学習は不安定で、生成が一部の様式に偏るモード崩壊が起きやすいのが原理的な弱点です。

拡散モデル（変分尤度・反復）

データに少しずつノイズを足す固定の前向き過程を決め打ちし、その逆（ノイズ除去）だけをネットワークに学ばせます。各ステップは「いま乗っているノイズ」を当てる易しい回帰で、損失は本質的に二乗誤差に帰着します。詳細は拡散モデルの数理を参照してください。

学習：x_0 にノイズ ε を足した x_t から、ε を予測（自己教師あり）
生成：純粋なノイズから、ε を予測して少し除去 → これを T 回反復

学習が安定し多様で高品質、という拡散の強みは、難しい生成を「多数の簡単なノイズ予測」に分割した設計の帰結です。代償として生成は反復のため遅く、サンプラの高速化が研究の主戦場です。土台の回帰はニューラルネットワークそのものです。

派生と年代：分岐の系統樹

主要な分岐を、提案年と「どの軸を動かしたか」で並べます。

2013年 VAE：潜在変数＋変分下界を導入。明示尤度・一発生成の起点。
- 派生 VQ-VAE（2017年）：潜在空間を離散化。これにより潜在系列を自己回帰で生成する道が開けた。
2014年 GAN：暗黙尤度・敵対学習の起点。
- 派生 DCGAN／StyleGAN：畳み込み化・様式制御で画質を飛躍させた高速生成の系譜。
2016年前後自己回帰の台頭：PixelRNN／PixelCNN（画像）と、Transformer（2017年）以降の言語モデル。厳密尤度・逐次生成の系譜。
2020年 DDPM：拡散を実用化。変分尤度・反復生成として画像生成の主流へ。
- 派生潜在拡散（2022年）：VAE で圧縮した潜在空間で拡散を走らせ、計算量を大幅削減。VAE と拡散の合流点。
- 派生 DDIM・ODE／SDE ソルバ：反復回数を圧縮する高速サンプラ。

境界は溶けつつある

系統は固定の壁ではなく、合流が進んでいます。潜在拡散は VAE（圧縮）と拡散（生成）の組み合わせですし、VQ-VAE の離散トークンを自己回帰で生成する手法は、画像生成を言語モデル流に解く試みです。軸を理解しておくと、新手法が「どの軸のどこに位置するか」で即座に読み解けます。

得意分野の俯瞰

系統	得意	弱点	現在の主用途
自己回帰	厳密尤度・学習が安定・離散系列に強い	生成が逐次で遅い	テキスト・コード生成の主流
VAE	滑らかな潜在空間・高速・圧縮に強い	生成がぼやけやすい	潜在拡散の符号化器・表現学習
GAN	一発生成で高速・鮮鋭	学習が不安定・モード崩壊	超解像など高速生成の一部
拡散	高品質・多様・学習が安定	反復生成で遅い	画像・動画・音声生成の主流

俯瞰すると、現在の住み分けは明快です。離散で長い系列（テキスト）は厳密尤度の自己回帰、連続で高次元の信号（画像・動画）は安定して高品質な拡散が主流を占めます。VAE は単体生成の表舞台からは退きつつも、拡散の潜在空間を支える縁の下の力持ちとして不可欠です。GAN は不安定さゆえに汎用生成の主役を拡散へ譲りましたが、一発生成の速さが効く局面では現役です。

試験・面接での頻出ポイント

厳密な対数尤度を計算できるのは自己回帰のみ。VAE と拡散は下界、GAN は評価しない（暗黙）。
GAN だけが密度を経由しないため、評価に FID 等の外部指標が要り、モード崩壊という固有の失敗様式を持つ。
拡散の生成が遅いのは反復構造、自己回帰が遅いのは逐次構造が原因で、遅さの理由が異なる。
潜在拡散は VAE と拡散の合流であり、片方の系統に分類しきれない。

まとめ

生成モデルは「尤度（明示／暗黙）」と「生成方式（逐次／一発／反復）」の2軸で4系統に整理できます。
自己回帰＝厳密尤度・逐次、VAE＝近似尤度・一発、GAN＝暗黙尤度・一発、拡散＝変分尤度・反復です。
尤度を明示するか否かが、学習の安定性・評価指標・失敗様式を決めます。
年代を追うと VAE→GAN→自己回帰→拡散と主役が移り、潜在拡散などで系統は合流しつつあります。
現在はテキスト＝自己回帰、画像／動画＝拡散が主流で、VAE は圧縮器、GAN は高速生成として役割が残ります。

生成モデルの系統図：VAE・GAN・拡散・自己回帰

系統図を貫く2本の軸

4系統の位置づけ

系統ごとの内部動作

自己回帰モデル（厳密尤度・逐次）

VAE（近似尤度・一発）

GAN（暗黙尤度・一発）

拡散モデル（変分尤度・反復）

派生と年代：分岐の系統樹

得意分野の俯瞰

まとめ

生成モデルの系統図：VAE・GAN・拡散・自己回帰を実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点