生成モデルの系統図:VAE・GAN・拡散・自己回帰
乱立する生成モデルを一本の地図でつかめます。尤度を明示するか暗黙にするか、どう生成するかの2軸で4系統を整理し、派生と得意分野まで俯瞰します。
- 1.生成モデルは「尤度をどう扱うか(明示/暗黙)」と「どう生成するか(逐次/一発/反復除去)」の2軸で4系統に整理できます。
- 2.VAEは近似尤度・GANは暗黙尤度・自己回帰は厳密尤度・拡散は変分尤度で、この違いが学習の安定性と評価指標を決めます。
- 3.現在はテキスト=自己回帰、画像/動画=拡散が主流で、VAEは潜在空間の圧縮器、GANは高速生成として役割が残っています。
系統図を貫く2本の軸
生成モデルは「データの分布 p(x) を学び、そこから新しい標本を作る」という共通の目的を持ちます。乱立して見える手法も、次の2軸に射影すると一枚の地図に収まります。
| 軸 | 問い | 両端 |
|---|---|---|
| 尤度の扱い | p(x) を式として評価できるか | 明示(密度を計算できる) ↔ 暗黙(標本は出せるが密度は計算しない) |
| 生成方式 | 1つの標本をどう作るか | 逐次(次の要素を順に) / 一発(1パスで全体) / 反復(ノイズを段階的に除去) |
「尤度を明示する」とは、ある標本 x に対して p(x)(または対数尤度)を数値として計算できることを指します。これができれば、最尤推定で素直に学習でき、生成物の「もっともらしさ」も測れます。できない=暗黙のモデルは、p(x) を経由せず標本だけを生成する経路を学びます。この差が、学習の安定性・評価指標・得意分野のすべてを規定します。
4系統の位置づけ
主要4系統を2軸の座標に置くと、次のように分かれます。
| 系統 | 尤度の扱い | 生成方式 | 中核アイデア |
|---|---|---|---|
| 自己回帰(AR) | 厳密な明示尤度 | 逐次(1要素ずつ) | p(x) を条件付き確率の積に分解し連鎖律で厳密に評価 |
| VAE | 近似の明示尤度(下界) | 一発(潜在 z をデコード) | 潜在変数を導入し、対数尤度の変分下界を最大化 |
| GAN | 暗黙尤度(評価しない) | 一発(潜在 z をデコード) | 生成器と識別器を競わせ、密度を経由せず分布を学ぶ |
| 拡散 | 変分の明示尤度(下界) | 反復(ノイズを段階除去) | データを壊す固定過程の逆を学び、ノイズから復元 |
自己回帰と VAE と拡散は「明示」側にあり、対数尤度(またはその下界)を目的関数に書けます。GAN だけが「暗黙」側で、p(x) を一切評価しません。生成方式では、自己回帰だけが逐次(要素を順番に出す)であり、VAE と GAN は潜在ベクトル z を1パスで標本へ写す一発生成、拡散は同じネットワークを何度も通す反復生成です。
明示モデルは保持データの対数尤度(パープレキシティ等)で直接評価できます。暗黙モデルである GAN は尤度が無いため、FID(生成分布と実分布の距離)のような外部指標に頼らざるを得ません。「なぜ GAN だけ評価が難しいか」は、この尤度の不在に起因します。
系統ごとの内部動作
自己回帰モデル(厳密尤度・逐次)
連鎖律で p(x) = p(x_1)·p(x_2 | x_1)·…·p(x_n | x_1…x_{n-1}) と厳密に分解し、各条件付き分布をネットワークで予測します。集合 {x_1, …, x_n} を1つずつ埋めていくため、対数尤度を近似なしで最尤推定でき、学習が安定します。
学習:各位置で「次の要素」の確率分布を予測し、正解との交差エントロピーを最小化
生成:x_1 を引く → それを条件に x_2 を引く → … と逐次サンプリング
弱点は生成が逐次で、長さ n の標本に n 回の前向き計算が要る点です。テキストの主流である LLMとTransformer はこの系統で、Transformer により条件付き分布を高精度に表現します。
VAE(近似尤度・一発)
潜在変数 z を導入し、p(x) を直接ではなく対数尤度の下界(ELBO)で最大化します。エンコーダが x を z の分布へ写し、デコーダが z から x を再構成します。
ELBO = 再構成項(z から x をどれだけ復元できるか)
− KL項(近似事後分布を事前分布 N(0, I) へ寄せる正則化)
z が連続で滑らかな潜在空間を作るため、補間や圧縮に強い一方、再構成がぼやけやすい傾向があります。現在は単体生成より、拡散モデルが働く圧縮済み潜在空間を用意する「符号化器」として中核的に使われます。
GAN(暗黙尤度・一発)
生成器 G がノイズ z を画像へ写し、識別器 D が本物と生成物を見分けます。両者を競わせ、D を騙せるよう G を訓練します。
D:本物を本物、生成物を偽物と当てるよう学習
G:D に本物と誤認させるよう学習(この勾配だけが G を動かす)
p(x) を一度も評価せず、標本品質を D の判定で間接的に押し上げるのが「暗黙」たるゆえんです。一発生成で高速かつ鮮鋭ですが、学習は不安定で、生成が一部の様式に偏るモード崩壊が起きやすいのが原理的な弱点です。
拡散モデル(変分尤度・反復)
データに少しずつノイズを足す固定の前向き過程を決め打ちし、その逆(ノイズ除去)だけをネットワークに学ばせます。各ステップは「いま乗っているノイズ」を当てる易しい回帰で、損失は本質的に二乗誤差に帰着します。詳細は 拡散モデルの数理 を参照してください。
学習:x_0 にノイズ ε を足した x_t から、ε を予測(自己教師あり)
生成:純粋なノイズから、ε を予測して少し除去 → これを T 回反復
学習が安定し多様で高品質、という拡散の強みは、難しい生成を「多数の簡単なノイズ予測」に分割した設計の帰結です。代償として生成は反復のため遅く、サンプラの高速化が研究の主戦場です。土台の回帰は ニューラルネットワーク そのものです。
派生と年代:分岐の系統樹
主要な分岐を、提案年と「どの軸を動かしたか」で並べます。
- 2013年 VAE:潜在変数+変分下界を導入。明示尤度・一発生成の起点。
- 派生 VQ-VAE(2017年):潜在空間を離散化。これにより潜在系列を自己回帰で生成する道が開けた。
- 2014年 GAN:暗黙尤度・敵対学習の起点。
- 派生 DCGAN/StyleGAN:畳み込み化・様式制御で画質を飛躍させた高速生成の系譜。
- 2016年前後 自己回帰の台頭:PixelRNN/PixelCNN(画像)と、Transformer(2017年)以降の言語モデル。厳密尤度・逐次生成の系譜。
- 2020年 DDPM:拡散を実用化。変分尤度・反復生成として画像生成の主流へ。
- 派生 潜在拡散(2022年):VAE で圧縮した潜在空間で拡散を走らせ、計算量を大幅削減。VAE と拡散の合流点。
- 派生 DDIM・ODE/SDE ソルバ:反復回数を圧縮する高速サンプラ。
系統は固定の壁ではなく、合流が進んでいます。潜在拡散は VAE(圧縮)と拡散(生成)の組み合わせですし、VQ-VAE の離散トークンを自己回帰で生成する手法は、画像生成を言語モデル流に解く試みです。軸を理解しておくと、新手法が「どの軸のどこに位置するか」で即座に読み解けます。
得意分野の俯瞰
| 系統 | 得意 | 弱点 | 現在の主用途 |
|---|---|---|---|
| 自己回帰 | 厳密尤度・学習が安定・離散系列に強い | 生成が逐次で遅い | テキスト・コード生成の主流 |
| VAE | 滑らかな潜在空間・高速・圧縮に強い | 生成がぼやけやすい | 潜在拡散の符号化器・表現学習 |
| GAN | 一発生成で高速・鮮鋭 | 学習が不安定・モード崩壊 | 超解像など高速生成の一部 |
| 拡散 | 高品質・多様・学習が安定 | 反復生成で遅い | 画像・動画・音声生成の主流 |
俯瞰すると、現在の住み分けは明快です。離散で長い系列(テキスト)は厳密尤度の自己回帰、連続で高次元の信号(画像・動画)は安定して高品質な拡散が主流を占めます。VAE は単体生成の表舞台からは退きつつも、拡散の潜在空間を支える縁の下の力持ちとして不可欠です。GAN は不安定さゆえに汎用生成の主役を拡散へ譲りましたが、一発生成の速さが効く局面では現役です。
- 厳密な対数尤度を計算できるのは自己回帰のみ。VAE と拡散は下界、GAN は評価しない(暗黙)。
- GAN だけが密度を経由しないため、評価に FID 等の外部指標が要り、モード崩壊という固有の失敗様式を持つ。
- 拡散の生成が遅いのは反復構造、自己回帰が遅いのは逐次構造が原因で、遅さの理由が異なる。
- 潜在拡散は VAE と拡散の合流であり、片方の系統に分類しきれない。
まとめ
- 生成モデルは「尤度(明示/暗黙)」と「生成方式(逐次/一発/反復)」の2軸で4系統に整理できます。
- 自己回帰=厳密尤度・逐次、VAE=近似尤度・一発、GAN=暗黙尤度・一発、拡散=変分尤度・反復です。
- 尤度を明示するか否かが、学習の安定性・評価指標・失敗様式を決めます。
- 年代を追うと VAE→GAN→自己回帰→拡散と主役が移り、潜在拡散などで系統は合流しつつあります。
- 現在はテキスト=自己回帰、画像/動画=拡散が主流で、VAE は圧縮器、GAN は高速生成として役割が残ります。
AI/機械学習 Article
生成モデルの系統図:VAE・GAN・拡散・自己回帰を実務で読む
TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。
解決すること
生成AI
比較で見る軸
難易度: advanced / カテゴリ: AI/機械学習 / タグ数: 6
導入後に効く点
VAEは近似尤度・GANは暗黙尤度・自己回帰は厳密尤度・拡散は変分尤度で、この違いが学習の安定性と評価指標を決めます。
先に潰すリスク
用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。
- 難易度
- advanced
- カテゴリ
- AI/機械学習
- タグ数
- 6
判断チェックリスト
- 自社の用途が「生成AI / VAE」に近いか確認する。
- 強みである「生成モデルは「尤度をどう扱うか(明示/暗黙)」と「どう生成するか(逐次/一発/反復除去)」の2軸で4系統に整理できます。」が本当に評価軸になるか確認する。
- 注意点の「用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。」を運用で吸収できるか確認する。
- 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
- 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
- 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。