技術
量子化
モデルのパラメータを 32bit から 8bit / 4bit などに圧縮し、メモリと推論コストを下げる手法。
詳しい解説
重みの精度を落とすことで、モデルサイズと推論時 VRAM 使用量を削減する。INT8、INT4 量子化が一般的で、ローカル LLM 実行(llama.cpp 等)で多用される。精度はわずかに低下するが、推論速度は数倍速くなる。
別表記
量子化quantization
モデルのパラメータを 32bit から 8bit / 4bit などに圧縮し、メモリと推論コストを下げる手法。
重みの精度を落とすことで、モデルサイズと推論時 VRAM 使用量を削減する。INT8、INT4 量子化が一般的で、ローカル LLM 実行(llama.cpp 等)で多用される。精度はわずかに低下するが、推論速度は数倍速くなる。