本章では、現代の生成AIを支える主要手法であるDiffusion・GAN・VAEの理論と進化を扱う。
画像・音声・テキスト生成の中核となるこれらのモデルを、確率過程と最適化の観点から理解し、 「なぜ生成できるのか」を数式レベルで把握することを目指す。
1. Diffusion Modelの数理(確率過程)
Diffusion Modelは、データに段階的にノイズを加え、それを逆に除去することで生成を行う確率モデルである。
■ Forward Process(拡散過程)
q(x_t | x_{t-1}) = N(x_t; √(1 - β_t) x_{t-1}, β_t I)
データに徐々にガウスノイズを加え、最終的に完全なノイズへと変換する。
■ Reverse Process(生成過程)
p_θ(x_{t-1} | x_t)
ノイズから元のデータ分布を復元するためのモデルを学習する。
このプロセスは、変分推論に基づく以下の損失で最適化される。
L = E[ || ε - ε_θ(x_t, t) ||^2 ]
- ε:実際のノイズ
- ε_θ:モデルが予測したノイズ
この枠組みにより、高品質かつ安定した生成が可能となる。
2. DDPM / DDIMの違い
■ DDPM(Denoising Diffusion Probabilistic Model)
- 確率的サンプリング
- 高品質だが生成が遅い
■ DDIM(Denoising Diffusion Implicit Model)
- 決定論的サンプリング
- 高速生成が可能
- サンプリングステップ削減が可能
DDIMはDDPMの拡張として、生成速度と品質のトレードオフを改善する。
3. Latent DiffusionとStable Diffusion
従来のDiffusionはピクセル空間で処理されていたため、計算コストが非常に高かった。
■ Latent Diffusion
- 画像を潜在空間(latent space)に圧縮
- 低次元空間でDiffusionを実行
- 計算効率を大幅改善
■ Stable Diffusion
- Latent Diffusionの実用化モデル
- テキスト条件付き生成(Text-to-Image)
- CLIPによる意味整合性
これにより、一般ユーザーでも高品質な画像生成が可能となった。
4. GANの崩壊問題と改善手法
GAN(Generative Adversarial Network)は、生成器と識別器の対戦によって学習するモデルである。
min_G max_D E[log D(x)] + E[log(1 - D(G(z)))]
■ 主な課題
- Mode Collapse(多様性の欠如)
- 学習の不安定性
- 勾配消失
■ WGAN(Wasserstein GAN)
- Earth Mover距離を利用
- 学習安定性の向上
■ StyleGAN
- スタイルベースの生成
- 高解像度画像生成
- 潜在空間の制御性向上
これらの改良により、GANは実用レベルの生成能力を獲得した。
5. VAE(変分オートエンコーダ)の役割
VAEは、確率分布としてデータをモデル化する生成手法である。
L = E[log p(x|z)] - KL(q(z|x) || p(z))
- 潜在空間の連続性
- 生成と再構成の両立
DiffusionやGANと組み合わせることで、より高度な生成モデルが構築される。
6. 実務における設計指針
生成モデルの選択は、用途によって大きく異なる。
- 高品質生成 → Diffusion
- リアルタイム生成 → GAN
- 潜在表現重視 → VAE
また、以下の観点が重要となる。
- 生成速度 vs 品質
- 計算コスト
- 制御性(Controllability)
まとめ
本章では、生成モデルの最前線を数理的観点から整理した。
- Diffusionは確率過程による安定生成
- DDIMにより高速化が可能
- Latent Diffusionで実用化が進展
- GANは対戦学習により高品質生成を実現
- VAEは確率的表現の基盤
これにより、生成AIの仕組みをブラックボックスではなく、 数式と構造から理解する基盤が整った。