大規模言語モデル（LLM）の学習戦略 - 金融情報システム開発なら20年以上の実績があるテンファイブ株式会社

本章では、大規模言語モデル（LLM）の性能を決定づける「学習戦略」に焦点を当てる。
単なるモデル構造ではなく、どのようなデータ・目的関数・スケーリング戦略を採用するかが、最終的な性能を大きく左右する。
本章を通じて、LLMを「利用する側」から「設計する側」へと視点を引き上げる。

1. Pretraining vs Instruction Tuning

■ Pretraining（事前学習）

Pretrainingは、大規模なテキストコーパスを用いて言語の統計構造を学習するプロセスである。一般的には次のような自己教師ありタスクが用いられる。


L = - Σ log P(x_t | x_1, x_2, ..., x_{t-1})

膨大なデータによる汎用知識の獲得
文法・意味・世界知識の内在化

■ Instruction Tuning（指示追従学習）

Instruction Tuningは、人間の指示（プロンプト）に適切に応答する能力を強化する工程である。

Q&A形式データによる微調整
タスク特化能力の向上
自然な対話生成の実現

この2段階構成により、「知識」と「応答能力」を分離して最適化できる。

2. RLHF / DPOの理論と実装

■ RLHF（Reinforcement Learning from Human Feedback）

RLHFは、人間の評価を報酬としてモデルを最適化する手法である。基本構成は以下の通り。

Reward Modelの学習
強化学習（PPOなど）による最適化


max E[ R(x, y) ]

ただし、RLHFは以下の課題を持つ。

学習が不安定（PPOのハイパーパラメータ依存）
計算コストが高い

■ DPO（Direct Preference Optimization）

DPOは、強化学習を用いずに人間の好みを直接最適化する手法である。


L = -log σ( β ( log π(y_w) - log π(y_l) ) )

y_w：好ましい出力
y_l：好ましくない出力
β：温度パラメータ

DPOは実装がシンプルでありながら、 RLHFに匹敵する性能を達成することが報告されている。

3. Tokenization戦略（BPE / SentencePiece）

LLMの入力はテキストではなくトークン列であり、トークナイザの設計はモデル性能に直接影響を与える。

■ BPE（Byte Pair Encoding）

頻出文字列を統合して語彙を構築
シンプルで高速
サブワード分割が可能

■ SentencePiece

空白を含めて処理（言語非依存）
Unigram Language Modelを採用可能
多言語対応に強い

トークナイザの選択は以下に影響する。

語彙サイズと圧縮率
未知語（OOV）の処理
多言語性能

4. Scaling Law（Chinchilla則）

近年の研究により、モデルサイズ・データ量・計算量の関係が定量的に示されている。

■ 従来のアプローチ

モデルサイズを拡大（パラメータ数重視）

■ Chinchilla則

モデルサイズとデータ量のバランスが重要
過大なモデルは非効率

Chinchillaの知見：

最適なトークン数 ≈ モデルパラメータ数の約20倍

この法則により、限られた計算資源で最大の性能を引き出す設計が可能となる。

5. 実務における設計戦略

LLMを構築する際には、以下の観点が重要となる。

データ品質 vs データ量のトレードオフ
PretrainingとFine-tuningの分離設計
RLHF / DPOの選択
トークナイザの最適化
計算資源に応じたScaling戦略

これらの意思決定が、最終的なモデル性能とコスト効率を決定する。

まとめ

本章では、LLMの学習戦略を構成する主要要素を体系的に整理した。

Pretrainingで知識を獲得し、Instruction Tuningで応答能力を強化
RLHF / DPOにより人間の価値観を反映
Tokenizationが入力表現を決定
Scaling Lawにより最適な設計が可能

これにより、LLMを単なる利用対象ではなく、設計・最適化可能なシステムとして扱う基盤が整った。