テイラー百科事典

KVキャッシュ

KVキャッシュは、LLMが過去トークンのkey・value行列を保存しておくメモリ領域です。新しいトークンを生成するたびに過去トークンのattentionを一から再計算せず、キャッシュから取り出して使うため、推論速度を決定的に左右します。

KVキャッシュは、LLMが過去トークンのkey・value行列を保存しておくメモリ領域です。新しいトークンを生成するたびに過去トークンのattentionを一から再計算せず、キャッシュから取り出して使うため、推論速度を決定的に左右します。

やっかいなのは、メモリ要求がコンテキスト長に比例して膨張する点。70Bモデルだと2Kコンテキストで1.6GB程度ですが、128Kまで伸ばすと40GBを超えてきます。ローカルで長コンテキストを扱うとき、モデル重みよりKVキャッシュの方がVRAMのボトルネックになるケースが多いです。

最終更新: 2026-04-21 · shuntailor.net テイラー百科事典