本章では、大規模言語モデル(LLM)の性能を決定づける「学習戦略」に焦点を当てる。
単なるモデル構造ではなく、どのようなデータ・目的関数・スケーリング戦略を採用するかが、 最終的な性能を大きく左右する。
本章を通じて、LLMを「利用する側」から「設計する側」へと視点を引き上げる。
1. Pretraining vs Instruction Tuning
■ Pretraining(事前学習)
Pretrainingは、大規模なテキストコーパスを用いて言語の統計構造を学習するプロセスである。 一般的には次のような自己教師ありタスクが用いられる。
L = - Σ log P(x_t | x_1, x_2, ..., x_{t-1})
- 膨大なデータによる汎用知識の獲得
- 文法・意味・世界知識の内在化
■ Instruction Tuning(指示追従学習)
Instruction Tuningは、人間の指示(プロンプト)に適切に応答する能力を強化する工程である。
- Q&A形式データによる微調整
- タスク特化能力の向上
- 自然な対話生成の実現
この2段階構成により、「知識」と「応答能力」を分離して最適化できる。
2. RLHF / DPOの理論と実装
■ RLHF(Reinforcement Learning from Human Feedback)
RLHFは、人間の評価を報酬としてモデルを最適化する手法である。 基本構成は以下の通り。
- Reward Modelの学習
- 強化学習(PPOなど)による最適化
max E[ R(x, y) ]
ただし、RLHFは以下の課題を持つ。
- 学習が不安定(PPOのハイパーパラメータ依存)
- 計算コストが高い
■ DPO(Direct Preference Optimization)
DPOは、強化学習を用いずに人間の好みを直接最適化する手法である。
L = -log σ( β ( log π(y_w) - log π(y_l) ) )
- y_w:好ましい出力
- y_l:好ましくない出力
- β:温度パラメータ
DPOは実装がシンプルでありながら、 RLHFに匹敵する性能を達成することが報告されている。
3. Tokenization戦略(BPE / SentencePiece)
LLMの入力はテキストではなくトークン列であり、 トークナイザの設計はモデル性能に直接影響を与える。
■ BPE(Byte Pair Encoding)
- 頻出文字列を統合して語彙を構築
- シンプルで高速
- サブワード分割が可能
■ SentencePiece
- 空白を含めて処理(言語非依存)
- Unigram Language Modelを採用可能
- 多言語対応に強い
トークナイザの選択は以下に影響する。
- 語彙サイズと圧縮率
- 未知語(OOV)の処理
- 多言語性能
4. Scaling Law(Chinchilla則)
近年の研究により、モデルサイズ・データ量・計算量の関係が定量的に示されている。
■ 従来のアプローチ
- モデルサイズを拡大(パラメータ数重視)
■ Chinchilla則
- モデルサイズとデータ量のバランスが重要
- 過大なモデルは非効率
Chinchillaの知見:
- 最適なトークン数 ≈ モデルパラメータ数の約20倍
この法則により、限られた計算資源で最大の性能を引き出す設計が可能となる。
5. 実務における設計戦略
LLMを構築する際には、以下の観点が重要となる。
- データ品質 vs データ量のトレードオフ
- PretrainingとFine-tuningの分離設計
- RLHF / DPOの選択
- トークナイザの最適化
- 計算資源に応じたScaling戦略
これらの意思決定が、最終的なモデル性能とコスト効率を決定する。
まとめ
本章では、LLMの学習戦略を構成する主要要素を体系的に整理した。
- Pretrainingで知識を獲得し、Instruction Tuningで応答能力を強化
- RLHF / DPOにより人間の価値観を反映
- Tokenizationが入力表現を決定
- Scaling Lawにより最適な設計が可能
これにより、LLMを単なる利用対象ではなく、 設計・最適化可能なシステムとして扱う基盤が整った。