テックカリキュラム

生成モデルの最前線(Diffusion / GAN / VAE)

生成モデルの最前線(Diffusion / GAN / VAE)

本章では、現代の生成AIを支える主要手法であるDiffusion・GAN・VAEの理論と進化を扱う。
画像・音声・テキスト生成の中核となるこれらのモデルを、確率過程と最適化の観点から理解し、 「なぜ生成できるのか」を数式レベルで把握することを目指す。


1. Diffusion Modelの数理(確率過程)

Diffusion Modelは、データに段階的にノイズを加え、それを逆に除去することで生成を行う確率モデルである。

■ Forward Process(拡散過程)


q(x_t | x_{t-1}) = N(x_t; √(1 - β_t) x_{t-1}, β_t I)

データに徐々にガウスノイズを加え、最終的に完全なノイズへと変換する。

■ Reverse Process(生成過程)


p_θ(x_{t-1} | x_t)

ノイズから元のデータ分布を復元するためのモデルを学習する。

このプロセスは、変分推論に基づく以下の損失で最適化される。


L = E[ || ε - ε_θ(x_t, t) ||^2 ]
  • ε:実際のノイズ
  • ε_θ:モデルが予測したノイズ

この枠組みにより、高品質かつ安定した生成が可能となる。


2. DDPM / DDIMの違い

■ DDPM(Denoising Diffusion Probabilistic Model)

  • 確率的サンプリング
  • 高品質だが生成が遅い

■ DDIM(Denoising Diffusion Implicit Model)

  • 決定論的サンプリング
  • 高速生成が可能
  • サンプリングステップ削減が可能

DDIMはDDPMの拡張として、生成速度と品質のトレードオフを改善する。


3. Latent DiffusionとStable Diffusion

従来のDiffusionはピクセル空間で処理されていたため、計算コストが非常に高かった。

■ Latent Diffusion

  • 画像を潜在空間(latent space)に圧縮
  • 低次元空間でDiffusionを実行
  • 計算効率を大幅改善

■ Stable Diffusion

  • Latent Diffusionの実用化モデル
  • テキスト条件付き生成(Text-to-Image)
  • CLIPによる意味整合性

これにより、一般ユーザーでも高品質な画像生成が可能となった。


4. GANの崩壊問題と改善手法

GAN(Generative Adversarial Network)は、生成器と識別器の対戦によって学習するモデルである。


min_G max_D E[log D(x)] + E[log(1 - D(G(z)))]

■ 主な課題

  • Mode Collapse(多様性の欠如)
  • 学習の不安定性
  • 勾配消失

■ WGAN(Wasserstein GAN)

  • Earth Mover距離を利用
  • 学習安定性の向上

■ StyleGAN

  • スタイルベースの生成
  • 高解像度画像生成
  • 潜在空間の制御性向上

これらの改良により、GANは実用レベルの生成能力を獲得した。


5. VAE(変分オートエンコーダ)の役割

VAEは、確率分布としてデータをモデル化する生成手法である。


L = E[log p(x|z)] - KL(q(z|x) || p(z))
  • 潜在空間の連続性
  • 生成と再構成の両立

DiffusionやGANと組み合わせることで、より高度な生成モデルが構築される。


6. 実務における設計指針

生成モデルの選択は、用途によって大きく異なる。

  • 高品質生成 → Diffusion
  • リアルタイム生成 → GAN
  • 潜在表現重視 → VAE

また、以下の観点が重要となる。

  • 生成速度 vs 品質
  • 計算コスト
  • 制御性(Controllability)

まとめ

本章では、生成モデルの最前線を数理的観点から整理した。

  • Diffusionは確率過程による安定生成
  • DDIMにより高速化が可能
  • Latent Diffusionで実用化が進展
  • GANは対戦学習により高品質生成を実現
  • VAEは確率的表現の基盤

これにより、生成AIの仕組みをブラックボックスではなく、 数式と構造から理解する基盤が整った。