本章では、エージェントが環境との相互作用を通じて最適な意思決定を学習する 強化学習(Reinforcement Learning)の理論と実践を扱う。
MDPの厳密な定義から、Policy Gradient・Actor-Critic、オフポリシー学習、 さらにはMulti-Agent環境までを体系的に理解し、 「環境×意思決定」を設計できるレベルを目指す。
1. MDPの厳密定義(Markov Decision Process)
強化学習は、MDP(マルコフ決定過程)として定式化される。
MDP = (S, A, P, R, γ)
- S:状態空間
- A:行動空間
- P:状態遷移確率 P(s’ | s, a)
- R:報酬関数 R(s, a)
- γ:割引率(0 ≤ γ ≤ 1)
目的は、累積報酬を最大化する方策 π を求めることである。
J(π) = E[ Σ γ^t r_t ]
マルコフ性により、現在の状態のみで次の状態が決定される。
2. Policy GradientとActor-Critic
■ Policy Gradient
方策を直接パラメータ化し、期待報酬を最大化する手法。
∇θ J(θ) = E[ ∇θ log πθ(a|s) * R ]
- 連続行動空間に対応可能
- 高分散問題が存在
■ Actor-Critic
Actor(方策)とCritic(価値関数)を分離することで、 学習の安定性と効率を向上させる。
- Actor:行動を決定
- Critic:価値を評価
Advantage関数を用いることで分散を低減する。
A(s, a) = Q(s, a) - V(s)
3. オフポリシー学習(DQN / SAC)
オフポリシー学習は、現在の方策とは異なるデータを利用して学習する手法である。
■ DQN(Deep Q-Network)
- Q関数をニューラルネットで近似
- Experience Replayによる安定化
- Target Networkで発散防止
Q(s, a) = r + γ max_a' Q(s', a')
■ SAC(Soft Actor-Critic)
- 最大エントロピー原理を導入
- 探索性能の向上
- 連続行動空間に強い
J = E[ Σ (r + α H(π(.|s))) ]
SACは安定性と性能のバランスに優れ、実務で広く利用されている。
4. Multi-Agent RLとゲーム理論
複数のエージェントが相互作用する環境では、 ゲーム理論的な分析が重要となる。
■ 基本概念
- 協調(Cooperative)
- 競争(Competitive)
- 混合戦略(Mixed Strategy)
■ Nash均衡
各エージェントが他者の戦略を前提として最適な行動を選択する状態。
■ 応用例
- 自動運転(複数車両の協調)
- 金融市場(戦略的取引)
- ゲームAI(対戦・協力)
Multi-Agent環境では、単一エージェントとは異なるダイナミクスが生じる。
5. 実務における設計指針
強化学習システムを設計する際には、以下の要素が重要となる。
- 状態空間と行動空間の適切な設計
- 報酬関数の設計(Reward Engineering)
- 探索と活用のバランス
- シミュレーション環境の構築
特に報酬設計は、エージェントの行動を決定づける最重要要素である。
まとめ
本章では、強化学習の理論と実践を統合的に理解した。
- MDPにより問題を定式化
- Policy Gradientで直接最適化
- Actor-Criticで安定化
- オフポリシー学習で効率化
- Multi-Agentで複雑な意思決定を扱う
これにより、「環境×意思決定」の設計が可能となる基盤が整った。
次章では、AIの信頼性を支える評価・解釈性・安全性へと進む。