テックカリキュラム

大規模言語モデル(LLM)の学習戦略

大規模言語モデル(LLM)の学習戦略

本章では、大規模言語モデル(LLM)の性能を決定づける「学習戦略」に焦点を当てる。
単なるモデル構造ではなく、どのようなデータ・目的関数・スケーリング戦略を採用するかが、 最終的な性能を大きく左右する。
本章を通じて、LLMを「利用する側」から「設計する側」へと視点を引き上げる。


1. Pretraining vs Instruction Tuning

■ Pretraining(事前学習)

Pretrainingは、大規模なテキストコーパスを用いて言語の統計構造を学習するプロセスである。 一般的には次のような自己教師ありタスクが用いられる。


L = - Σ log P(x_t | x_1, x_2, ..., x_{t-1})
  • 膨大なデータによる汎用知識の獲得
  • 文法・意味・世界知識の内在化

■ Instruction Tuning(指示追従学習)

Instruction Tuningは、人間の指示(プロンプト)に適切に応答する能力を強化する工程である。

  • Q&A形式データによる微調整
  • タスク特化能力の向上
  • 自然な対話生成の実現

この2段階構成により、「知識」と「応答能力」を分離して最適化できる。


2. RLHF / DPOの理論と実装

■ RLHF(Reinforcement Learning from Human Feedback)

RLHFは、人間の評価を報酬としてモデルを最適化する手法である。 基本構成は以下の通り。

  1. Reward Modelの学習
  2. 強化学習(PPOなど)による最適化

max E[ R(x, y) ]

ただし、RLHFは以下の課題を持つ。

  • 学習が不安定(PPOのハイパーパラメータ依存)
  • 計算コストが高い

■ DPO(Direct Preference Optimization)

DPOは、強化学習を用いずに人間の好みを直接最適化する手法である。


L = -log σ( β ( log π(y_w) - log π(y_l) ) )
  • y_w:好ましい出力
  • y_l:好ましくない出力
  • β:温度パラメータ

DPOは実装がシンプルでありながら、 RLHFに匹敵する性能を達成することが報告されている。


3. Tokenization戦略(BPE / SentencePiece)

LLMの入力はテキストではなくトークン列であり、 トークナイザの設計はモデル性能に直接影響を与える。

■ BPE(Byte Pair Encoding)

  • 頻出文字列を統合して語彙を構築
  • シンプルで高速
  • サブワード分割が可能

■ SentencePiece

  • 空白を含めて処理(言語非依存)
  • Unigram Language Modelを採用可能
  • 多言語対応に強い

トークナイザの選択は以下に影響する。

  • 語彙サイズと圧縮率
  • 未知語(OOV)の処理
  • 多言語性能

4. Scaling Law(Chinchilla則)

近年の研究により、モデルサイズ・データ量・計算量の関係が定量的に示されている。

■ 従来のアプローチ

  • モデルサイズを拡大(パラメータ数重視)

■ Chinchilla則

  • モデルサイズとデータ量のバランスが重要
  • 過大なモデルは非効率

Chinchillaの知見:

  • 最適なトークン数 ≈ モデルパラメータ数の約20倍

この法則により、限られた計算資源で最大の性能を引き出す設計が可能となる。


5. 実務における設計戦略

LLMを構築する際には、以下の観点が重要となる。

  • データ品質 vs データ量のトレードオフ
  • PretrainingとFine-tuningの分離設計
  • RLHF / DPOの選択
  • トークナイザの最適化
  • 計算資源に応じたScaling戦略

これらの意思決定が、最終的なモデル性能とコスト効率を決定する。


まとめ

本章では、LLMの学習戦略を構成する主要要素を体系的に整理した。

  • Pretrainingで知識を獲得し、Instruction Tuningで応答能力を強化
  • RLHF / DPOにより人間の価値観を反映
  • Tokenizationが入力表現を決定
  • Scaling Lawにより最適な設計が可能

これにより、LLMを単なる利用対象ではなく、 設計・最適化可能なシステムとして扱う基盤が整った。