context window (컨텍스트 윈도)

이론·모델

context window (컨텍스트 윈도)

LLM 이 한 번에 처리할 수 있는 최대 토큰 수. 모델마다 상한이 있고, 초과하면 앞부분이 잘린다.

1줄 정의

LLM 이 한 번에 처리할 수 있는 최대 토큰 수. 모델마다 상한이 있고, 초과하면 앞부분이 잘린다.

전체 시스템에서 맡는 역할

LLM 의 제약 중에서 가장 직접적으로 실무에 영향을 주는 게 context window 상한이다. Claude Sonnet 4.6 의 1M 토큰 버전이 화제가 된 것도 context window 가 사실상 “작업장 크기” 를 정하기 때문.

다룰 수 있는 범위를 토큰 단위로 나타내는 이 값은 다음을 전부 포함한다.

  • 시스템 프롬프트
  • 사용자 입력
  • 대화 이력 (여러 턴)
  • 첨부 파일 / 참고 문서
  • 모델의 출력 (생성 중)

이걸 다 합쳐 상한 안에 들어가야 한다. 넘치는 건 “앞에서 자르기”, “압축”, “무시” 등 프레임워크 쪽에서 대응한다.

context window 가 커지면 한 번에 읽힐 문서량이 늘고, 긴 대화 이력을 보관할 수 있다. 다만 “크다 = 늘 좋다” 는 아니다.

  • 비용: 입력 토큰은 전부 과금
  • 정밀도: 가운데 정보를 놓치는 lost in the middle 현상
  • 레이턴시: 처리 시간 증가

흔한 오해

  • 오해 1: context window 가 큰 모델이면 RAG 는 필요 없다, 라고 여겨지기 쉽다.

– 실제로 거대 코퍼스나 동적 데이터는 여전히 RAG 로 좁히는 게 효율적. “관련 부분만 건넨다” 는 역할은 context 가 커져도 남는다.

  • 오해 2: context window = 출력 길이 상한, 으로 혼동되기 쉽다.

– 실제로는 입력 + 출력 합계가 상한. 출력만의 최대값은 별도 설정 (max_tokens 등).

이 용어가 중요한 이유

context window 를 의식할 수 있으면 AI 운영 비용과 품질 트레이드오프를 제어할 수 있다.

이 용어가 나오는 기사

  • Claude Code 100만 토큰, RAG, long context 관련 기사

다음에 읽을 용어 3개

  • token — context window 의 단위.
  • RAG — 컨텍스트를 동적으로 짜는 방식.
  • Doc-to-LoRA — context window 에 의존하지 않는 대안.
最終更新: 2026-04-18 · shuntailor.net テイラー百科事典

context window (コンテキストウィンドウ)

理論・モデル

context window (コンテキストウィンドウ)

LLM が一度に処理できる最大トークン数。モデルごとに上限があり、超えると古い部分が切られる。

一行定義

LLM が一度に処理できる最大トークン数。モデルごとに上限があり、超えると古い部分が切られる。

全体システムの中での役割

LLM の制約の中でもっとも直接的に実務に効いてくるのが context window の上限だ。Claude Sonnet 4.6 の 1M トークン版が出たことで騒がれたのも、context window が実質的な「作業場の広さ」を決めるから。

扱える範囲を トークン 単位で示すこの値は、次のすべてを含む。

  • システムプロンプト
  • ユーザー入力
  • 会話履歴(複数ターン)
  • 添付ファイル / 参考ドキュメント
  • モデルの出力(生成中)

これら全部を足して上限内に収める必要がある。超えた分は「前から切る」「圧縮する」「無視する」など、フレームワーク側で対処が入る。

context window が大きくなると、一度に読ませられるドキュメント量が増え、長い対話履歴を保てる。ただし「大きい=いつでも良い」ではない。

  • コスト:入力トークンは全部課金される
  • 精度:中央部の情報を見落とす lost in the middle 現象
  • レイテンシ:処理時間が伸びる

よくある誤解

  • 誤解 1:context window が大きいモデルなら RAG は要らない、と思われがち。

– 実際には、巨大コーパスや動的データは依然として RAG で絞り込むほうが効率的。「関連部分だけを渡す」という役割は、context が大きくなっても残る。

  • 誤解 2:context window = 出力の長さ上限、と混同されがち。

– 実際には、入力 + 出力の合計が上限。出力だけの最大値は別途設定される(max_tokens など)。

この用語が重要な理由

context window を意識できると、AI 運用の予算と品質トレードオフをコントロールできる

この用語が登場する記事

  • Claude Code 100万トークン、RAG、long context 関連記事

次に読むべき用語 3 つ

  • token — context window の単位。
  • RAG — コンテキストを動的に組む方式。
  • Doc-to-LoRA — context window に頼らない代替策。
最終更新: 2026-04-18 · shuntailor.net テイラー百科事典
JAKO