生成モデルの最前線（Diffusion / GAN / VAE） - 金融情報システム開発なら20年以上の実績があるテンファイブ株式会社

本章では、現代の生成AIを支える主要手法であるDiffusion・GAN・VAEの理論と進化を扱う。
画像・音声・テキスト生成の中核となるこれらのモデルを、確率過程と最適化の観点から理解し、「なぜ生成できるのか」を数式レベルで把握することを目指す。

1. Diffusion Modelの数理（確率過程）

Diffusion Modelは、データに段階的にノイズを加え、それを逆に除去することで生成を行う確率モデルである。

■ Forward Process（拡散過程）


q(x_t | x_{t-1}) = N(x_t; √(1 - β_t) x_{t-1}, β_t I)

データに徐々にガウスノイズを加え、最終的に完全なノイズへと変換する。

■ Reverse Process（生成過程）


p_θ(x_{t-1} | x_t)

ノイズから元のデータ分布を復元するためのモデルを学習する。

このプロセスは、変分推論に基づく以下の損失で最適化される。


L = E[ || ε - ε_θ(x_t, t) ||^2 ]

ε：実際のノイズ
ε_θ：モデルが予測したノイズ

この枠組みにより、高品質かつ安定した生成が可能となる。

2. DDPM / DDIMの違い

■ DDPM（Denoising Diffusion Probabilistic Model）

確率的サンプリング
高品質だが生成が遅い

■ DDIM（Denoising Diffusion Implicit Model）

決定論的サンプリング
高速生成が可能
サンプリングステップ削減が可能

DDIMはDDPMの拡張として、生成速度と品質のトレードオフを改善する。

3. Latent DiffusionとStable Diffusion

従来のDiffusionはピクセル空間で処理されていたため、計算コストが非常に高かった。

■ Latent Diffusion

画像を潜在空間（latent space）に圧縮
低次元空間でDiffusionを実行
計算効率を大幅改善

■ Stable Diffusion

Latent Diffusionの実用化モデル
テキスト条件付き生成（Text-to-Image）
CLIPによる意味整合性

これにより、一般ユーザーでも高品質な画像生成が可能となった。

4. GANの崩壊問題と改善手法

GAN（Generative Adversarial Network）は、生成器と識別器の対戦によって学習するモデルである。


min_G max_D E[log D(x)] + E[log(1 - D(G(z)))]

■ 主な課題

Mode Collapse（多様性の欠如）
学習の不安定性
勾配消失

■ WGAN（Wasserstein GAN）

Earth Mover距離を利用
学習安定性の向上

■ StyleGAN

スタイルベースの生成
高解像度画像生成
潜在空間の制御性向上

これらの改良により、GANは実用レベルの生成能力を獲得した。

5. VAE（変分オートエンコーダ）の役割

VAEは、確率分布としてデータをモデル化する生成手法である。


L = E[log p(x|z)] - KL(q(z|x) || p(z))

潜在空間の連続性
生成と再構成の両立

DiffusionやGANと組み合わせることで、より高度な生成モデルが構築される。

6. 実務における設計指針

生成モデルの選択は、用途によって大きく異なる。

高品質生成 → Diffusion
リアルタイム生成 → GAN
潜在表現重視 → VAE

また、以下の観点が重要となる。

生成速度 vs 品質
計算コスト
制御性（Controllability）

まとめ

本章では、生成モデルの最前線を数理的観点から整理した。

Diffusionは確率過程による安定生成
DDIMにより高速化が可能
Latent Diffusionで実用化が進展
GANは対戦学習により高品質生成を実現
VAEは確率的表現の基盤

これにより、生成AIの仕組みをブラックボックスではなく、数式と構造から理解する基盤が整った。