context window (컨텍스트 윈도)
LLM 이 한 번에 처리할 수 있는 최대 토큰 수. 모델마다 상한이 있고, 초과하면 앞부분이 잘린다.
1줄 정의
LLM 이 한 번에 처리할 수 있는 최대 토큰 수. 모델마다 상한이 있고, 초과하면 앞부분이 잘린다.
전체 시스템에서 맡는 역할
LLM 의 제약 중에서 가장 직접적으로 실무에 영향을 주는 게 context window 상한이다. Claude Sonnet 4.6 의 1M 토큰 버전이 화제가 된 것도 context window 가 사실상 “작업장 크기” 를 정하기 때문.
다룰 수 있는 범위를 토큰 단위로 나타내는 이 값은 다음을 전부 포함한다.
- 시스템 프롬프트
- 사용자 입력
- 대화 이력 (여러 턴)
- 첨부 파일 / 참고 문서
- 모델의 출력 (생성 중)
이걸 다 합쳐 상한 안에 들어가야 한다. 넘치는 건 “앞에서 자르기”, “압축”, “무시” 등 프레임워크 쪽에서 대응한다.
context window 가 커지면 한 번에 읽힐 문서량이 늘고, 긴 대화 이력을 보관할 수 있다. 다만 “크다 = 늘 좋다” 는 아니다.
- 비용: 입력 토큰은 전부 과금
- 정밀도: 가운데 정보를 놓치는 lost in the middle 현상
- 레이턴시: 처리 시간 증가
흔한 오해
- 오해 1: context window 가 큰 모델이면 RAG 는 필요 없다, 라고 여겨지기 쉽다.
– 실제로 거대 코퍼스나 동적 데이터는 여전히 RAG 로 좁히는 게 효율적. “관련 부분만 건넨다” 는 역할은 context 가 커져도 남는다.
- 오해 2: context window = 출력 길이 상한, 으로 혼동되기 쉽다.
– 실제로는 입력 + 출력 합계가 상한. 출력만의 최대값은 별도 설정 (max_tokens 등).
이 용어가 중요한 이유
context window 를 의식할 수 있으면 AI 운영 비용과 품질 트레이드오프를 제어할 수 있다.
이 용어가 나오는 기사
- Claude Code 100만 토큰, RAG, long context 관련 기사
다음에 읽을 용어 3개
- token — context window 의 단위.
- RAG — 컨텍스트를 동적으로 짜는 방식.
- Doc-to-LoRA — context window 에 의존하지 않는 대안.