本章では、深層学習における「表現(Representation)」の本質に焦点を当てる。
モデルの性能はアルゴリズムそのものではなく、「どのような特徴空間を構築しているか」に大きく依存する。
本章では、埋め込み空間の設計思想から、Contrastive Learning、Metric Learningまでを体系的に理解する。
1. Representation Learningの理論
Representation Learningとは、データから有用な特徴表現(Feature Representation)を自動的に学習する手法である。 従来の特徴量設計(Feature Engineering)とは異なり、ニューラルネットワークは多層構造を通じて階層的な特徴を抽出する。
- 低層:エッジや基本パターン
- 中層:構造的特徴(形状・関係性)
- 高層:意味的特徴(セマンティクス)
この階層構造により、モデルは「入力 → 抽象化 → 意味理解」というプロセスを内部的に構築する。
また、良い表現とは以下の性質を持つ。
- 識別可能性(Discriminability):異なるクラスを分離できる
- 不変性(Invariance):ノイズや変換に対して安定
- 圧縮性(Compactness):冗長な情報を排除
2. Contrastive Learning(SimCLR・MoCo)
Contrastive Learningは、「類似データは近く、非類似データは遠く」に配置することで、 埋め込み空間を構築する手法である。
基本的な損失関数は以下のように表現される。
L = -log ( exp(sim(z_i, z_j)/τ) / Σ_k exp(sim(z_i, z_k)/τ) )
- sim:類似度(cosine similarityが一般的)
- τ:温度パラメータ
■ SimCLR
- 同一画像に対するデータ拡張(augmentation)を利用
- 大規模バッチサイズが必要
- シンプルだが高性能
■ MoCo(Momentum Contrast)
- メモリバンクを使用し、過去のデータを活用
- Momentum Encoderによる安定した表現学習
- 小バッチでも高性能
これらの手法は教師なし学習(Self-Supervised Learning)の中核技術となっている。
3. 埋め込み空間の幾何構造(Cosine vs Euclidean)
Embedding空間における距離指標の選択は、モデル性能に直接影響を与える。
■ Euclidean距離
d(x, y) = ||x - y||
- 絶対的な距離を測定
- スケールの影響を受ける
■ Cosine類似度
cos(x, y) = (x・y) / (||x|| ||y||)
- ベクトルの角度を測定
- スケール不変
- NLPや推薦システムで多用される
一般的に高次元空間では、距離よりも角度(方向性)の方が意味を持つため、 cosine類似度が好まれるケースが多い。
4. Metric Learningとクラスタリングの融合
Metric Learningは、「距離そのもの」を学習するアプローチであり、 Embedding空間の構造を直接最適化する。
■ Triplet Loss
L = max( d(anchor, positive) - d(anchor, negative) + margin, 0 )
- anchor:基準データ
- positive:同一クラス
- negative:異なるクラス
この損失により、同一クラスは近く、異なるクラスは遠く配置される。
■ クラスタリングとの統合
- Deep Clustering(例:DeepCluster)
- Embedding + k-meansの反復最適化
- 教師なし分類の高精度化
この融合により、ラベルなしデータから意味構造を抽出することが可能となる。
5. 実務における設計指針
実際のシステム設計では、以下の判断が重要となる。
- タスクに応じた距離指標の選択(cosine / euclidean)
- Embedding次元数の最適化
- 正規化(L2 normalization)の有無
- Negative Sampling戦略
特に検索・推薦・類似度計算システムでは、 Embedding設計がそのままプロダクト性能に直結する。
まとめ
本章では、AIの性能を決定づける「表現」の設計について、 理論から実装までを体系的に整理した。
- Representation Learningにより特徴は自動獲得される
- Contrastive Learningが現代の主流手法
- 距離ではなく「空間設計」が本質
- Metric Learningにより構造を直接制御可能