전체 시스템에서 맡는 역할

긴 문서를 그대로 embedding 에 건네면 의미가 묽어져서 검색 정밀도가 떨어진다. 반대로 너무 짧으면 맥락이 빠진다. “적당한 길이로 자르는” 작업의 출력이 chunk.

전형적인 자르는 방식:

고정 크기 (500~1500 토큰)

문단·소제목 경계

의미 경계 (semantic chunking)

겹침 (overlap) 두기 (chunk 경계의 의미 절단 방지)

chunk 는 vector DB 에 저장되고, 질문과 chunk 의 벡터 유사도로 검색된다. RAG 성능이 chunk 전략에 크게 좌우된다.

検索・RAG

chunk (チャンク)

検索のためにドキュメントを小分けにした単位。ベクトル化の最小粒度で、切り方が retrieval 品質を大きく左右する。

一行定義

検索のためにドキュメントを小分けにした単位。ベクトル化の最小粒度で、切り方が retrieval 品質を大きく左右する。

長いドキュメントをそのまま embedding に渡すと、意味が薄まって検索精度が落ちる。逆に短すぎると文脈が抜ける。「ちょうどよい長さに切る」作業の出力が chunk だ。

典型的な切り方：

chunk は vector DB に保存され、質問と chunk のベクトル類似度で検索される。RAG の性能は chunk 戦略で大きく動く。

– 実際には、長すぎる chunk は意味がぼやけて、embedding の類似度計算が鈍る。「適切な切断」が常に重要。

最終更新: 2026-04-18 · shuntailor.net テイラー百科事典