KVキャッシュ

テイラー百科事典

KVキャッシュ

KVキャッシュは、LLMが過去トークンのkey・value行列を保存しておくメモリ領域です。新しいトークンを生成するたびに過去トークンのattentionを一から再計算せず、キャッシュから取り出して使うため、推論速度を決定的に左右します。

KVキャッシュは、LLMが過去トークンのkey・value行列を保存しておくメモリ領域です。新しいトークンを生成するたびに過去トークンのattentionを一から再計算せず、キャッシュから取り出して使うため、推論速度を決定的に左右します。

やっかいなのは、メモリ要求がコンテキスト長に比例して膨張する点。70Bモデルだと2Kコンテキストで1.6GB程度ですが、128Kまで伸ばすと40GBを超えてきます。ローカルで長コンテキストを扱うとき、モデル重みよりKVキャッシュの方がVRAMのボトルネックになるケースが多いです。

→ 原典: Hugging Face · Llama 3.1 Inference

最終更新: 2026-04-21 · shuntailor.net テイラー百科事典
JAKO