本章では、AIモデルの性能評価だけでなく、「なぜその判断に至ったのか」を理解し、 さらに安全に制御するための技術を扱う。
Explainable AI、バイアス検出、Adversarial Attack、LLM特有のHallucination問題を通じて、 AIを“使う”段階から“制御する”段階へと進む。
1. Explainable AI(SHAP / LIME)
Explainable AI(XAI)は、モデルの予測理由を人間が理解可能な形で説明する技術である。
■ LIME(Local Interpretable Model-agnostic Explanations)
- 局所的に単純モデル(線形モデルなど)で近似
- 個別予測の解釈に強い
■ SHAP(SHapley Additive exPlanations)
- ゲーム理論に基づく特徴量寄与度の算出
- グローバル・ローカル両方の解釈が可能
SHAP value = 各特徴量の貢献度(Shapley値)
これにより、「どの特徴がどの程度影響したか」を定量的に把握できる。
2. バイアス検出とフェアネス指標
AIモデルは学習データの偏りを反映するため、 公平性(Fairness)の評価が重要となる。
■ 主なフェアネス指標
- Demographic Parity:各グループでの予測割合の均等性
- Equal Opportunity:真陽性率の均等性
- Equalized Odds:誤判定率の均等性
これらはしばしばトレードオフ関係にあり、 どの指標を優先するかは用途によって異なる。
■ バイアス対策
- データ前処理(リサンプリング)
- 学習時制約(Fairness Regularization)
- 後処理による補正
3. Adversarial Attackと防御
Adversarial Attackは、人間にはほぼ認識できない微小なノイズを加えることで、 モデルの予測を誤らせる攻撃手法である。
■ 攻撃手法
- FGSM(Fast Gradient Sign Method)
- PGD(Projected Gradient Descent)
x' = x + ε * sign(∇_x L)
■ 防御手法
- Adversarial Training
- 入力正規化
- モデルのロバスト化
これらの対策により、モデルの安全性と信頼性を向上させることができる。
4. LLMのHallucination対策
LLMは事実に基づかない内容を生成することがあり、 これをHallucination(幻覚)と呼ぶ。
■ 主な原因
- 訓練データの不完全性
- 確率的生成の特性
- 長距離依存の誤り
■ 対策手法
- RAG(Retrieval-Augmented Generation)
- 外部知識ベースの統合
- 出力検証(Post-processing)
- Temperature制御
特にRAGは、外部データを参照することで事実性を大幅に向上させる。
5. 実務における制御戦略
AIシステムの設計においては、以下の観点が重要となる。
- 説明可能性の確保(Explainability)
- 公平性の維持(Fairness)
- 攻撃耐性(Robustness)
- 出力の信頼性(Reliability)
これらを統合的に設計することで、 AIは単なるツールから「制御可能なシステム」へと進化する。
まとめ
本章では、AIの評価・解釈性・安全性に関する重要概念を整理した。
- SHAP / LIMEによりモデルの意思決定を可視化
- フェアネス指標でバイアスを定量評価
- Adversarial Attackに対する防御戦略
- LLMのHallucination対策としてRAGが有効
これにより、AIを「安全に使う」だけでなく、 設計レベルで制御する基盤が整った。
次章では、これらのモデルを実際に運用するためのMLOpsと 本番環境アーキテクチャへと進む。