テイラー百科事典
KVキャッシュ
KVキャッシュは、LLMが過去トークンのkey・value行列を保存しておくメモリ領域です。新しいトークンを生成するたびに過去トークンのattentionを一から再計算せず、キャッシュから取り出して使うため、推論速度を決定的に左右します。
KVキャッシュは、LLMが過去トークンのkey・value行列を保存しておくメモリ領域です。新しいトークンを生成するたびに過去トークンのattentionを一から再計算せず、キャッシュから取り出して使うため、推論速度を決定的に左右します。
やっかいなのは、メモリ要求がコンテキスト長に比例して膨張する点。70Bモデルだと2Kコンテキストで1.6GB程度ですが、128Kまで伸ばすと40GBを超えてきます。ローカルで長コンテキストを扱うとき、モデル重みよりKVキャッシュの方がVRAMのボトルネックになるケースが多いです。
→ 原典: Hugging Face · Llama 3.1 Inference