chunk (청크)

검색·RAG

chunk (청크)

검색을 위해 문서를 잘게 나눈 단위. 벡터화의 최소 입자로, 자르는 방식이 retrieval 품질을 크게 좌우한다.

1줄 정의

검색을 위해 문서를 잘게 나눈 단위. 벡터화의 최소 입자로, 자르는 방식이 retrieval 품질을 크게 좌우한다.

전체 시스템에서 맡는 역할

긴 문서를 그대로 embedding 에 건네면 의미가 묽어져서 검색 정밀도가 떨어진다. 반대로 너무 짧으면 맥락이 빠진다. “적당한 길이로 자르는” 작업의 출력이 chunk.

전형적인 자르는 방식:

  • 고정 크기 (500~1500 토큰)
  • 문단·소제목 경계
  • 의미 경계 (semantic chunking)
  • 겹침 (overlap) 두기 (chunk 경계의 의미 절단 방지)

chunk 는 vector DB 에 저장되고, 질문과 chunk 의 벡터 유사도로 검색된다. RAG 성능이 chunk 전략에 크게 좌우된다.

흔한 오해

  • 오해 1: chunk 는 길수록 정보가 많다, 라고 여겨지기 쉽다.

– 실제로 너무 긴 chunk 는 의미가 뿌예져서 embedding 유사도 계산이 둔해진다. “적절한 절단” 이 늘 중요.

다음에 읽을 용어 3개

  • embedding — chunk 를 변환하는 대상.
  • vector DB — chunk 를 저장하는 곳.
  • RAG — chunk 를 쓰는 상위 틀.
最終更新: 2026-04-18 · shuntailor.net テイラー百科事典

chunk (チャンク)

検索・RAG

chunk (チャンク)

検索のためにドキュメントを小分けにした単位。ベクトル化の最小粒度で、切り方が retrieval 品質を大きく左右する。

一行定義

検索のためにドキュメントを小分けにした単位。ベクトル化の最小粒度で、切り方が retrieval 品質を大きく左右する。

全体システムの中での役割

長いドキュメントをそのまま embedding に渡すと、意味が薄まって検索精度が落ちる。逆に短すぎると文脈が抜ける。「ちょうどよい長さに切る」作業の出力が chunk だ。

典型的な切り方:

  • 固定サイズ(500〜1500 トークン)
  • 段落や見出しの境界
  • 意味的な境界(semantic chunking)
  • 重なり(overlap)を持たせる(chunk 境界の意味切断を防ぐ)

chunk は vector DB に保存され、質問と chunk のベクトル類似度で検索される。RAG の性能は chunk 戦略で大きく動く。

よくある誤解

  • 誤解 1:chunk は長ければ情報が多い、と思われがち。

– 実際には、長すぎる chunk は意味がぼやけて、embedding の類似度計算が鈍る。「適切な切断」が常に重要。

次に読むべき用語 3 つ

  • embedding — chunk を変換する先。
  • vector DB — chunk を保存する先。
  • RAG — chunk を使う上位枠組み。
最終更新: 2026-04-18 · shuntailor.net テイラー百科事典
JAKO