양자화(Quantization)

テイラー百科事典

양자화(Quantization)

양자화(Quantization)는 모델 가중치를 FP16·FP32에서 INT8·INT4로 정밀도를 낮춰 저장하는 기법입니다. 7B FP16 모델이 14GB라면 Q4로 양자화하면 4GB까지 내려가 M2 맥북 VRAM에 충분히 들어갑니다.

양자화(Quantization)는 모델 가중치를 FP16·FP32에서 INT8·INT4로 정밀도를 낮춰 저장하는 기법입니다. 7B FP16 모델이 14GB라면 Q4로 양자화하면 4GB까지 내려가 M2 맥북 VRAM에 충분히 들어갑니다.

대가는 정확도 손실. GPTQ·AWQ·GGUF 같은 방법론이 손실을 최소화하지만, Q2·Q3까지 내려가면 벤치마크가 눈에 띄게 떨어집니다. 로컬 LLM 세팅의 출발점은 “Q4_K_M·Q5_K_M 언저리에서 품질·메모리 trade-off 잡기”입니다.

→ 원본 소스: Hugging Face · Quantization 문서

最終更新: 2026-04-21 · shuntailor.net テイラー百科事典
JAKO