검색·RAG

Doc-to-LoRA (문서-LoRA)

문서를 매번 프롬프트에 붙이는 대신, 모델 쪽에 '기억' 으로 심어 문맥 비용을 낮추는 retrieval 외곽층.

1줄 정의

문서를 매번 프롬프트에 붙이는 대신, 모델 쪽에 ‘기억’ 으로 심어 문맥 비용을 낮추는 retrieval 외곽층.

전체 시스템에서 맡는 역할

retrieval (검색) 을 개선하는 방향은 지금까지 거의 “어떻게 검색할 것인가” 의 이야기였다. embedding 을 똑똑하게 만들기, 그래프 구조를 얹기, 모델이 직접 검색하게 만들기 — 이 개량들은 전부 “정보를 입력으로 매번 건넨다” 는 전제를 공유한다.

Doc-to-LoRA 는 그 전제 자체를 버리는 방향이다.

뭉뚱그려 말하면,

기존형 retrieval: 문서를 chunk 로 만들어 벡터 DB 에 넣고, 매번 질문과 같이 끌어와서 프롬프트에 붙인다 (입력으로 건넴)
Doc-to-LoRA: 문서를 미리 모델에 “학습” 시켜 가벼운 가중치 차분 (LoRA) 으로 보관한다. 쿼리 때는 가중치의 일부로 항상 반영된다 (기억으로 들고 있음)

즉 Doc-to-LoRA 는 retrieval 의 한 단계 더 바깥쪽 에 있는 층이다. “검색을 똑똑하게” 만드는 게 아니라 “애초에 검색할 필요가 없도록 문서를 모델 내부에 갖고 있는” 방향.

RAG 4층 지도에서 보면, embedding / GraphRAG / agentic retrieval 이 retrieval 안쪽 이야기라면, Doc-to-LoRA 는 memory adaptation 층 (4층) 에 자리잡는다. retrieval 의 일부를 retrieval 바깥으로 내보낸다는 의미에서의 “외곽층” 이다.

이 층의 특징은 늘 쓰는 게 아니라, 특정 종류의 문제를 다른 층으로 빼내는 선택지 로 이해하는 편이 오차가 적다.

흔한 오해

Doc-to-LoRA 는 이름과 발상 둘 다 새로워서 오해되기 쉽다.

오해 1: Doc-to-LoRA 는 RAG 의 대체 기술이다, 라고 받아들여지기 쉽다.

– 실제로는 모든 retrieval 문제를 대체하는 게 아니다. 같은 문서를 대량 토큰으로 반복 입력하고 있는 상황에서 의미가 생기는 층이고, 동적 코퍼스나 거대 코퍼스, 최신성이 중요한 문서에는 안 맞는다. “쓸 장면이 한정된다” 로 읽는 편이 실태에 가깝다.

오해 2: Doc-to-LoRA 는 long-context window 없이도 되는 기술이다, 라고 여겨지기 쉽다.

– 실제로는 long context 와 경쟁 관계이긴 해도 어느 쪽이 이기는 이야기는 아니다. 매번 넣는 게 낭비인 정적 문서 는 Doc-to-LoRA, 동적으로 골라 넣어야 할 문서 는 long context + retrieval, 이런 식의 용도 분할이 자연스럽다. 같은 문제에 대한 다른 해법으로 나란히 놓고 검토하는 게 정확하다.

오해 3: Doc-to-LoRA 는 무거운 파인튜닝이다, 라고 긴장하게 되기 쉽다.

– 실제로는 LoRA 자체가 가벼운 가중치 차분만 학습하는 기법이라 풀 모델 학습보다 훨씬 낮은 비용으로 끝난다. 그래도 “모델 가중치를 바꾼다” 는 심리적 장벽은 있고, 기존 LLM-as-a-service 운영 (프롬프트만 쓰는 방식) 과의 정합은 별도로 고민해야 한다.

이 용어가 중요한 이유

이 층을 아는지 아닌지에 따라 long-context / retrieval / memory 논쟁을 따로따로가 아니라 한 장의 지도로 읽을 수 있는지 가 달라진다. 이게 실무적 가치다.

“context window 가 1M 이 됐으니 retrieval 은 이제 필요 없다” 같은 말을 가끔 듣는다. 반대로 “아니 retrieval 은 남는다” 는 반론도 있다. Doc-to-LoRA 를 모르면 이 논쟁은 이항 대립 으로 보인다.

알면 풍경이 달라진다.

동적이고 거대한 코퍼스는 retrieval 이 담당한다 (1~3층)
매번 같은 문서를 읽게 하는 비용은 Doc-to-LoRA 로 바깥으로 빼낸다 (4층)
둘은 쌓인다. 경쟁이 아니라 보완

이 관점을 갖느냐에 따라 자사 제품의 LLM 활용 설계를 평가할 때의 칼질이 달라진다. “어떤 문서를 retrieval 에, 어떤 문서를 memory 에 둘 것인가” 의 분배 문제로 떠오른다.

또 논문이나 제품에서 “memory”, “adapter”, “per-user fine-tune” 같은 단어를 봤을 때, 그게 retrieval 4층 어디에 위치하는지를 즉각 읽을 수 있게 된다.

이 용어가 나오는 기사

당신의 병목은 RAG 가 아니라, retrieval 의 어느 층에 있는가 (※ 발행 후 실제 URL 로 교체)

다음에 읽을 용어 3개

LoRA — Doc-to-LoRA 의 기반 메커니즘. 가벼운 가중치 차분 학습의 일반형.
agentic retrieval — 같은 4층 맵의 workflow 쪽. Doc-to-LoRA 와 쌍을 이룬다.
RAG — Doc-to-LoRA 가 “바깥” 에 위치하는 상위 개념.

最終更新: 2026-04-18 · shuntailor.net テイラー百科事典

検索・RAG

Doc-to-LoRA

文書を毎回プロンプトに貼るのではなく、モデル側に「記憶」として取り込んで長文脈コストを下げる、retrieval の外側層。

一行定義

文書を毎回プロンプトに貼るのではなく、モデル側に「記憶」として取り込んで長文脈コストを下げる、retrieval の外側層。

全体システムの中での役割

retrieval（検索）を改善する方向は、これまでほとんど「どう検索するか」の話だった。embedding を賢くする、グラフ構造を足す、モデルに検索させる、といった改良はどれも「情報を入力として毎回渡す」という前提を共有している。

Doc-to-LoRA は、その前提そのものを外す 方向だ。

ざっくり言うと、

従来型 retrieval：ドキュメントを chunk にしてベクトル DB に入れ、毎回質問と一緒に引いてプロンプトに貼る（入力として渡す）
Doc-to-LoRA：ドキュメントを事前にモデルに「学習」させて、軽量な重み差分（LoRA）として保持する。クエリ時は重みの一部として常に反映される（記憶として保つ）

つまり Doc-to-LoRA は、retrieval のもう一段外側 にある層だ。「検索を賢くする」のではなく、「そもそも検索しなくて済むように、文書をモデル内部に持っておく」方向。

RAG の 4 層マップで言えば、embedding / GraphRAG / agentic retrieval が retrieval 内側の話なのに対し、Doc-to-LoRA は memory adaptation 層 (4 層) と位置付けられる。retrieval の一部を retrieval の外に追い出す、という意味での「外側層」だ。

この層の特徴は、常に使うものではなく、特定の種類の問題を別の層に逃がす選択肢 として理解したほうが、誤差が少ない。

よくある誤解

Doc-to-LoRA は名前と発想の両方が新しく、誤解されやすい。

誤解 1：Doc-to-LoRA は RAG の置き換え技術だ、と受け取られがち。

– 実際には、あらゆる retrieval 問題を置き換えるものではない。繰り返し同じ文書を大量トークンとして入れている ような状況で意味が出る層で、動的コーパスや巨大コーパス、最新性が重要なドキュメントには向かない。「使うべき場面が限定的」と読むほうが実態に近い。

誤解 2：Doc-to-LoRA は long-context window 不要の技術だ、と思われがち。

– 実際には、long context との競争関係ではあるが、どちらかが勝つ話ではない。毎回入れるのが無駄な静的文書 には Doc-to-LoRA、動的に選んで入れるべき文書 には long context + retrieval、という使い分けが自然。両者を同じ問題に対する別解と並べて検討するのが正確。

誤解 3：Doc-to-LoRA は重いファインチューニングだ、と構えられがち。

– 実際には、LoRA 自体が軽量な重み差分のみを学習する手法なので、フルモデル学習より遥かに低コストで済む。それでも「モデル重みを変える」という心理的なハードルはあり、既存の LLM-as-a-service 運用（プロンプトだけで使う）との整合は別途考える必要がある。

この用語が重要な理由

この層を知っているかどうかで、long-context / retrieval / memory の論争を別々ではなく 1 枚の地図で読めるか が変わる。これが実務的価値だ。

「context window が 1M になった、retrieval はもう要らない」という言い方をたまに聞く。逆に「いや、retrieval は残る」という反論もある。Doc-to-LoRA を知らないと、この論争は 二項対立 に見える。

知っていると、風景が変わる。

動的で巨大なコーパスは retrieval が担う（1〜3 層）
毎回同じ文書を読み込ませるだけのコストは Doc-to-LoRA で外側に逃がす（4 層）
両者はスタックする。競合ではなく補完

この視点を持てるかどうかで、自社プロダクトの LLM 利用設計を評価するときの切り方が変わる。「どの文書を retrieval に、どの文書を memory に持たせるか」という振り分け問題として立ち上がってくる。

また、論文やプロダクトで「memory」「adapter」「per-user fine-tune」といった語を見たときに、それが retrieval 4 層のどこに位置するかを即座に読めるようになる。

この用語が登場する記事

あなたのボトルネックは RAG ではなく、retrieval のどの層にある（※発行後に実 URL へ差し替え）

次に読むべき用語 3 つ

LoRA — Doc-to-LoRA の基盤機構。軽量な重み差分学習の一般形。
agentic retrieval — 同じ 4 層マップの workflow 側。Doc-to-LoRA と対をなす。
RAG — Doc-to-LoRA が「外側」に位置する親概念。

設計上のトレードオフ

Doc-to-LoRA を採用するかどうかは、次のコストを見積もってから決める。

更新コスト：ドキュメントが更新されるたびに LoRA を再学習する必要がある。動的更新の頻度が高いコーパスでは、retrieval のほうが素直。
個別化の難しさ：ユーザーごとに別文書を記憶させる場合、ユーザー数分の LoRA を管理する必要があり、インフラ負担が増える。
Forgetting / 干渉：複数の LoRA を同時適用すると、互いの知識が干渉する可能性がある。組み合わせ方の設計が必要。
モデル重みへのアクセス：API 経由で利用している商用モデル（例：Anthropic / OpenAI API）では、そもそもユーザー側で LoRA を適用できない。セルフホスト環境が前提。
評価の難しさ：「記憶した」ことをどう評価するか、従来の retrieval の正確性評価とは別の指標が必要。

これらのコストがペイする状況——静的で大量に参照される文書、プロンプト長の圧迫が恒常的、セルフホスト環境——以外では、素直に retrieval 側で解いたほうが運用はシンプルだ。

最終更新: 2026-04-18 · shuntailor.net テイラー百科事典