非公式・AI自動要約ニュースサイト(各AI企業の公式とは無関係)
AAI News JP / www.ai-news.jp
技術

量子化

モデルのパラメータを 32bit から 8bit / 4bit などに圧縮し、メモリと推論コストを下げる手法。

詳しい解説

重みの精度を落とすことで、モデルサイズと推論時 VRAM 使用量を削減する。INT8、INT4 量子化が一般的で、ローカル LLM 実行(llama.cpp 等)で多用される。精度はわずかに低下するが、推論速度は数倍速くなる。

別表記

量子化quantization

関連用語

← 用語集一覧へ