テイラー百科事典
VRAM
VRAMはGPUに搭載された専用メモリです。LLM推論ではモデル重み+KVキャッシュ+活性化がすべてVRAM上に載る必要があり、ここに収まらないと動作しないか、ディスクswapで速度が急落します。
VRAMはGPUに搭載された専用メモリです。LLM推論ではモデル重み+KVキャッシュ+活性化がすべてVRAM上に載る必要があり、ここに収まらないと動作しないか、ディスクswapで速度が急落します。
経験則として、FP16なら7Bで14GB、70Bで140GB必要。量子化(Q4)すれば7Bが4GBまで落ち、M2 MacBookでも動きます。ローカルLLMセットアップで最初に確認すべき値は「手元のGPU VRAMが何GBか」です。
→ 原典: Hugging Face · LLM Optimization