テイラー百科事典

KV 캐시

KV 캐시는 LLM이 이전 토큰들의 key·value 행렬을 저장해두는 메모리 영역입니다. 새 토큰을 생성할 때마다 지난 토큰 attention을 처음부터 다시 계산하지 않고 캐시에서 바로 가져다 쓰기 때문에 추론 속도를 결정적으로 좌우합니다.

KV 캐시는 LLM이 이전 토큰들의 key·value 행렬을 저장해두는 메모리 영역입니다. 새 토큰을 생성할 때마다 지난 토큰 attention을 처음부터 다시 계산하지 않고 캐시에서 바로 가져다 쓰기 때문에 추론 속도를 결정적으로 좌우합니다.

문제는 메모리 요구치가 컨텍스트 길이에 비례해서 폭증한다는 점. 70B 모델 기준 2K 컨텍스트에서 1.6GB 정도 쓰지만 128K로 늘리면 40GB를 넘어갑니다. 로컬에서 긴 컨텍스트를 다룰 때 모델 가중치보다 KV 캐시가 더 큰 VRAM 병목이 되는 경우가 흔합니다.

→ 원본 소스: Hugging Face · Llama 3.1 Inference

最終更新: 2026-04-21 · shuntailor.net テイラー百科事典