技術

量子化

モデルのパラメータを 32bit から 8bit / 4bit などに圧縮し、メモリと推論コストを下げる手法。

詳しい解説

重みの精度を落とすことで、モデルサイズと推論時 VRAM 使用量を削減する。INT8、INT4 量子化が一般的で、ローカル LLM 実行（llama.cpp 等）で多用される。精度はわずかに低下するが、推論速度は数倍速くなる。

量子化quantization