TL

生成モデルの系統図:VAE・GAN・拡散・自己回帰

乱立する生成モデルを一本の地図でつかめます。尤度を明示するか暗黙にするか、どう生成するかの2軸で4系統を整理し、派生と得意分野まで俯瞰します。

応用生成AIVAEGAN拡散モデル自己回帰モデル尤度最終更新: 2026-06-22
TL;DR要点だけ先に
  • 1.生成モデルは「尤度をどう扱うか(明示/暗黙)」と「どう生成するか(逐次/一発/反復除去)」の2軸で4系統に整理できます。
  • 2.VAEは近似尤度・GANは暗黙尤度・自己回帰は厳密尤度・拡散は変分尤度で、この違いが学習の安定性と評価指標を決めます。
  • 3.現在はテキスト=自己回帰、画像/動画=拡散が主流で、VAEは潜在空間の圧縮器、GANは高速生成として役割が残っています。

系統図を貫く2本の軸

生成モデルは「データの分布 p(x) を学び、そこから新しい標本を作る」という共通の目的を持ちます。乱立して見える手法も、次の2軸に射影すると一枚の地図に収まります。

問い両端
尤度の扱いp(x) を式として評価できるか明示(密度を計算できる) ↔ 暗黙(標本は出せるが密度は計算しない)
生成方式1つの標本をどう作るか逐次(次の要素を順に) / 一発(1パスで全体) / 反復(ノイズを段階的に除去)

「尤度を明示する」とは、ある標本 x に対して p(x)(または対数尤度)を数値として計算できることを指します。これができれば、最尤推定で素直に学習でき、生成物の「もっともらしさ」も測れます。できない=暗黙のモデルは、p(x) を経由せず標本だけを生成する経路を学びます。この差が、学習の安定性・評価指標・得意分野のすべてを規定します。

4系統の位置づけ

主要4系統を2軸の座標に置くと、次のように分かれます。

系統尤度の扱い生成方式中核アイデア
自己回帰(AR)厳密な明示尤度逐次(1要素ずつ)p(x) を条件付き確率の積に分解し連鎖律で厳密に評価
VAE近似の明示尤度(下界)一発(潜在 z をデコード)潜在変数を導入し、対数尤度の変分下界を最大化
GAN暗黙尤度(評価しない)一発(潜在 z をデコード)生成器と識別器を競わせ、密度を経由せず分布を学ぶ
拡散変分の明示尤度(下界)反復(ノイズを段階除去)データを壊す固定過程の逆を学び、ノイズから復元

自己回帰と VAE と拡散は「明示」側にあり、対数尤度(またはその下界)を目的関数に書けます。GAN だけが「暗黙」側で、p(x) を一切評価しません。生成方式では、自己回帰だけが逐次(要素を順番に出す)であり、VAE と GAN は潜在ベクトル z を1パスで標本へ写す一発生成、拡散は同じネットワークを何度も通す反復生成です。

「明示か暗黙か」が評価指標を決める

明示モデルは保持データの対数尤度(パープレキシティ等)で直接評価できます。暗黙モデルである GAN は尤度が無いため、FID(生成分布と実分布の距離)のような外部指標に頼らざるを得ません。「なぜ GAN だけ評価が難しいか」は、この尤度の不在に起因します。

系統ごとの内部動作

自己回帰モデル(厳密尤度・逐次)

連鎖律で p(x) = p(x_1)·p(x_2 | x_1)·…·p(x_n | x_1…x_{n-1}) と厳密に分解し、各条件付き分布をネットワークで予測します。集合 {x_1, …, x_n} を1つずつ埋めていくため、対数尤度を近似なしで最尤推定でき、学習が安定します。

学習:各位置で「次の要素」の確率分布を予測し、正解との交差エントロピーを最小化
生成:x_1 を引く → それを条件に x_2 を引く → … と逐次サンプリング

弱点は生成が逐次で、長さ n の標本に n 回の前向き計算が要る点です。テキストの主流である LLMとTransformer はこの系統で、Transformer により条件付き分布を高精度に表現します。

VAE(近似尤度・一発)

潜在変数 z を導入し、p(x) を直接ではなく対数尤度の下界(ELBO)で最大化します。エンコーダが xz の分布へ写し、デコーダが z から x を再構成します。

ELBO = 再構成項(z から x をどれだけ復元できるか)
       − KL項(近似事後分布を事前分布 N(0, I) へ寄せる正則化)

z が連続で滑らかな潜在空間を作るため、補間や圧縮に強い一方、再構成がぼやけやすい傾向があります。現在は単体生成より、拡散モデルが働く圧縮済み潜在空間を用意する「符号化器」として中核的に使われます。

GAN(暗黙尤度・一発)

生成器 G がノイズ z を画像へ写し、識別器 D が本物と生成物を見分けます。両者を競わせ、D を騙せるよう G を訓練します。

D:本物を本物、生成物を偽物と当てるよう学習
G:D に本物と誤認させるよう学習(この勾配だけが G を動かす)

p(x) を一度も評価せず、標本品質を D の判定で間接的に押し上げるのが「暗黙」たるゆえんです。一発生成で高速かつ鮮鋭ですが、学習は不安定で、生成が一部の様式に偏るモード崩壊が起きやすいのが原理的な弱点です。

拡散モデル(変分尤度・反復)

データに少しずつノイズを足す固定の前向き過程を決め打ちし、その逆(ノイズ除去)だけをネットワークに学ばせます。各ステップは「いま乗っているノイズ」を当てる易しい回帰で、損失は本質的に二乗誤差に帰着します。詳細は 拡散モデルの数理 を参照してください。

学習:x_0 にノイズ ε を足した x_t から、ε を予測(自己教師あり)
生成:純粋なノイズから、ε を予測して少し除去 → これを T 回反復

学習が安定し多様で高品質、という拡散の強みは、難しい生成を「多数の簡単なノイズ予測」に分割した設計の帰結です。代償として生成は反復のため遅く、サンプラの高速化が研究の主戦場です。土台の回帰は ニューラルネットワーク そのものです。

派生と年代:分岐の系統樹

主要な分岐を、提案年と「どの軸を動かしたか」で並べます。

  • 2013年 VAE:潜在変数+変分下界を導入。明示尤度・一発生成の起点。
    • 派生 VQ-VAE(2017年):潜在空間を離散化。これにより潜在系列を自己回帰で生成する道が開けた。
  • 2014年 GAN:暗黙尤度・敵対学習の起点。
    • 派生 DCGAN/StyleGAN:畳み込み化・様式制御で画質を飛躍させた高速生成の系譜。
  • 2016年前後 自己回帰の台頭:PixelRNN/PixelCNN(画像)と、Transformer(2017年)以降の言語モデル。厳密尤度・逐次生成の系譜。
  • 2020年 DDPM:拡散を実用化。変分尤度・反復生成として画像生成の主流へ。
    • 派生 潜在拡散(2022年):VAE で圧縮した潜在空間で拡散を走らせ、計算量を大幅削減。VAE と拡散の合流点。
    • 派生 DDIM・ODE/SDE ソルバ:反復回数を圧縮する高速サンプラ。
境界は溶けつつある

系統は固定の壁ではなく、合流が進んでいます。潜在拡散は VAE(圧縮)と拡散(生成)の組み合わせですし、VQ-VAE の離散トークンを自己回帰で生成する手法は、画像生成を言語モデル流に解く試みです。軸を理解しておくと、新手法が「どの軸のどこに位置するか」で即座に読み解けます。

得意分野の俯瞰

系統得意弱点現在の主用途
自己回帰厳密尤度・学習が安定・離散系列に強い生成が逐次で遅いテキスト・コード生成の主流
VAE滑らかな潜在空間・高速・圧縮に強い生成がぼやけやすい潜在拡散の符号化器・表現学習
GAN一発生成で高速・鮮鋭学習が不安定・モード崩壊超解像など高速生成の一部
拡散高品質・多様・学習が安定反復生成で遅い画像・動画・音声生成の主流

俯瞰すると、現在の住み分けは明快です。離散で長い系列(テキスト)は厳密尤度の自己回帰連続で高次元の信号(画像・動画)は安定して高品質な拡散が主流を占めます。VAE は単体生成の表舞台からは退きつつも、拡散の潜在空間を支える縁の下の力持ちとして不可欠です。GAN は不安定さゆえに汎用生成の主役を拡散へ譲りましたが、一発生成の速さが効く局面では現役です。

試験・面接での頻出ポイント
  • 厳密な対数尤度を計算できるのは自己回帰のみ。VAE と拡散は下界、GAN は評価しない(暗黙)
  • GAN だけが密度を経由しないため、評価に FID 等の外部指標が要り、モード崩壊という固有の失敗様式を持つ。
  • 拡散の生成が遅いのは反復構造、自己回帰が遅いのは逐次構造が原因で、遅さの理由が異なる。
  • 潜在拡散は VAE と拡散の合流であり、片方の系統に分類しきれない。

まとめ

  • 生成モデルは「尤度(明示/暗黙)」と「生成方式(逐次/一発/反復)」の2軸で4系統に整理できます。
  • 自己回帰=厳密尤度・逐次VAE=近似尤度・一発GAN=暗黙尤度・一発拡散=変分尤度・反復です。
  • 尤度を明示するか否かが、学習の安定性・評価指標・失敗様式を決めます。
  • 年代を追うと VAE→GAN→自己回帰→拡散と主役が移り、潜在拡散などで系統は合流しつつあります。
  • 現在はテキスト=自己回帰、画像/動画=拡散が主流で、VAE は圧縮器、GAN は高速生成として役割が残ります。

AI/機械学習 Article

生成モデルの系統図:VAE・GAN・拡散・自己回帰を実務で読む

TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。

解決すること

生成AI

比較で見る軸

難易度: advanced / カテゴリ: AI/機械学習 / タグ数: 6

導入後に効く点

VAEは近似尤度・GANは暗黙尤度・自己回帰は厳密尤度・拡散は変分尤度で、この違いが学習の安定性と評価指標を決めます。

先に潰すリスク

用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。

数字・仕様の読み方
難易度
advanced
カテゴリ
AI/機械学習
タグ数
6

判断チェックリスト

  • 自社の用途が「生成AI / VAE」に近いか確認する。
  • 強みである「生成モデルは「尤度をどう扱うか(明示/暗黙)」と「どう生成するか(逐次/一発/反復除去)」の2軸で4系統に整理できます。」が本当に評価軸になるか確認する。
  • 注意点の「用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。」を運用で吸収できるか確認する。
  • 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
  • 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
  • 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。

次に確認する観点

生成AIVAEGAN拡散モデル自己回帰モデル生成AIVAEGAN