量子化

テイラー百科事典

量子化

量子化(Quantization)はモデル重みをFP16やFP32からINT8・INT4へ精度を下げて保存する手法です。7B FP16モデルが14GBのところ、Q4量子化すれば4GBまで下がり、M2 MacBookのVRAMに十分収まります。

量子化(Quantization)はモデル重みをFP16やFP32からINT8・INT4へ精度を下げて保存する手法です。7B FP16モデルが14GBのところ、Q4量子化すれば4GBまで下がり、M2 MacBookのVRAMに十分収まります。

代償は精度の低下。GPTQ・AWQ・GGUFといった手法で損失を最小化できますが、Q2・Q3まで落とすとベンチマークが明確に劣化します。ローカルLLMセットアップの出発点は「Q4_K_M・Q5_K_M付近で品質とメモリのトレードオフを取る」です。

→ 原典: Hugging Face · Quantization 文書

最終更新: 2026-04-21 · shuntailor.net テイラー百科事典
JAKO