テイラー百科事典
VRAM
VRAM은 GPU에 탑재된 전용 메모리입니다. LLM 추론에서는 모델 가중치 + KV 캐시 + 활성화값이 모두 VRAM 위에 올라가야 하고, 여기 안 들어가면 아예 돌아가지 않거나 디스크 swap으로 속도가 급락합니다.
VRAM은 GPU에 탑재된 전용 메모리입니다. LLM 추론에서는 모델 가중치 + KV 캐시 + 활성화값이 모두 VRAM 위에 올라가야 하고, 여기 안 들어가면 아예 돌아가지 않거나 디스크 swap으로 속도가 급락합니다.
경험칙: FP16으로 7B는 14GB, 70B는 140GB 필요. 양자화(Q4)로 7B는 4GB까지 내려가 M2 맥북에서도 돌아갑니다. 로컬 LLM 세팅에서 가장 먼저 확인할 값은 “내 GPU VRAM이 몇 GB인가”입니다.
→ 원본 소스: Hugging Face · LLM Optimization