技術
蒸留
知識蒸留
大きなモデル(教師)の出力で小さなモデル(生徒)を学習させ、小型・高速版を作る手法。
詳しい解説
巨大モデルの応答を教師信号として小型モデルを学習させ、性能をある程度維持しつつパラメータ数を大幅削減する技術。Claude Haiku、GPT-4o-mini、Gemini Flash などの小型モデルはこの種の手法を活用している場合がある。
別表記
蒸留distillation知識蒸留
知識蒸留
大きなモデル(教師)の出力で小さなモデル(生徒)を学習させ、小型・高速版を作る手法。
巨大モデルの応答を教師信号として小型モデルを学習させ、性能をある程度維持しつつパラメータ数を大幅削減する技術。Claude Haiku、GPT-4o-mini、Gemini Flash などの小型モデルはこの種の手法を活用している場合がある。