Doc-to-LoRA (문서-LoRA)
문서를 매번 프롬프트에 붙이는 대신, 모델 쪽에 '기억' 으로 심어 문맥 비용을 낮추는 retrieval 외곽층.
1줄 정의
문서를 매번 프롬프트에 붙이는 대신, 모델 쪽에 ‘기억’ 으로 심어 문맥 비용을 낮추는 retrieval 외곽층.
전체 시스템에서 맡는 역할
retrieval (검색) 을 개선하는 방향은 지금까지 거의 “어떻게 검색할 것인가” 의 이야기였다. embedding 을 똑똑하게 만들기, 그래프 구조를 얹기, 모델이 직접 검색하게 만들기 — 이 개량들은 전부 “정보를 입력으로 매번 건넨다” 는 전제를 공유한다.
Doc-to-LoRA 는 그 전제 자체를 버리는 방향이다.
뭉뚱그려 말하면,
- 기존형 retrieval: 문서를 chunk 로 만들어 벡터 DB 에 넣고, 매번 질문과 같이 끌어와서 프롬프트에 붙인다 (입력으로 건넴)
- Doc-to-LoRA: 문서를 미리 모델에 “학습” 시켜 가벼운 가중치 차분 (LoRA) 으로 보관한다. 쿼리 때는 가중치의 일부로 항상 반영된다 (기억으로 들고 있음)
즉 Doc-to-LoRA 는 retrieval 의 한 단계 더 바깥쪽 에 있는 층이다. “검색을 똑똑하게” 만드는 게 아니라 “애초에 검색할 필요가 없도록 문서를 모델 내부에 갖고 있는” 방향.
RAG 4층 지도에서 보면, embedding / GraphRAG / agentic retrieval 이 retrieval 안쪽 이야기라면, Doc-to-LoRA 는 memory adaptation 층 (4층) 에 자리잡는다. retrieval 의 일부를 retrieval 바깥으로 내보낸다는 의미에서의 “외곽층” 이다.
이 층의 특징은 늘 쓰는 게 아니라, 특정 종류의 문제를 다른 층으로 빼내는 선택지 로 이해하는 편이 오차가 적다.
흔한 오해
Doc-to-LoRA 는 이름과 발상 둘 다 새로워서 오해되기 쉽다.
- 오해 1: Doc-to-LoRA 는 RAG 의 대체 기술이다, 라고 받아들여지기 쉽다.
– 실제로는 모든 retrieval 문제를 대체하는 게 아니다. 같은 문서를 대량 토큰으로 반복 입력하고 있는 상황에서 의미가 생기는 층이고, 동적 코퍼스나 거대 코퍼스, 최신성이 중요한 문서에는 안 맞는다. “쓸 장면이 한정된다” 로 읽는 편이 실태에 가깝다.
- 오해 2: Doc-to-LoRA 는 long-context window 없이도 되는 기술이다, 라고 여겨지기 쉽다.
– 실제로는 long context 와 경쟁 관계이긴 해도 어느 쪽이 이기는 이야기는 아니다. 매번 넣는 게 낭비인 정적 문서 는 Doc-to-LoRA, 동적으로 골라 넣어야 할 문서 는 long context + retrieval, 이런 식의 용도 분할이 자연스럽다. 같은 문제에 대한 다른 해법으로 나란히 놓고 검토하는 게 정확하다.
- 오해 3: Doc-to-LoRA 는 무거운 파인튜닝이다, 라고 긴장하게 되기 쉽다.
– 실제로는 LoRA 자체가 가벼운 가중치 차분만 학습하는 기법이라 풀 모델 학습보다 훨씬 낮은 비용으로 끝난다. 그래도 “모델 가중치를 바꾼다” 는 심리적 장벽은 있고, 기존 LLM-as-a-service 운영 (프롬프트만 쓰는 방식) 과의 정합은 별도로 고민해야 한다.
이 용어가 중요한 이유
이 층을 아는지 아닌지에 따라 long-context / retrieval / memory 논쟁을 따로따로가 아니라 한 장의 지도로 읽을 수 있는지 가 달라진다. 이게 실무적 가치다.
“context window 가 1M 이 됐으니 retrieval 은 이제 필요 없다” 같은 말을 가끔 듣는다. 반대로 “아니 retrieval 은 남는다” 는 반론도 있다. Doc-to-LoRA 를 모르면 이 논쟁은 이항 대립 으로 보인다.
알면 풍경이 달라진다.
- 동적이고 거대한 코퍼스는 retrieval 이 담당한다 (1~3층)
- 매번 같은 문서를 읽게 하는 비용은 Doc-to-LoRA 로 바깥으로 빼낸다 (4층)
- 둘은 쌓인다. 경쟁이 아니라 보완
이 관점을 갖느냐에 따라 자사 제품의 LLM 활용 설계를 평가할 때의 칼질이 달라진다. “어떤 문서를 retrieval 에, 어떤 문서를 memory 에 둘 것인가” 의 분배 문제로 떠오른다.
또 논문이나 제품에서 “memory”, “adapter”, “per-user fine-tune” 같은 단어를 봤을 때, 그게 retrieval 4층 어디에 위치하는지를 즉각 읽을 수 있게 된다.
이 용어가 나오는 기사
- 당신의 병목은 RAG 가 아니라, retrieval 의 어느 층에 있는가 (※ 발행 후 실제 URL 로 교체)
다음에 읽을 용어 3개
- LoRA — Doc-to-LoRA 의 기반 메커니즘. 가벼운 가중치 차분 학습의 일반형.
- agentic retrieval — 같은 4층 맵의 workflow 쪽. Doc-to-LoRA 와 쌍을 이룬다.
- RAG — Doc-to-LoRA 가 “바깥” 에 위치하는 상위 개념.