RAG와 LLM의 한계 — ChatGPT는 왜 모르는 걸 지어내고, 어떻게 고치나
ChatGPT는 왜 모르는 걸 자신있게 지어낼까. LLM의 다섯 가지 한계부터, 그중 지식·환각을 검색으로 메우는 RAG, 벡터와 내적으로 문단을 찾는 원리, 파인튜닝·시스템 프롬프트의 자리까지.
자연어로 세계를 설계하다|Vibe Coding 미디어
LLM 내부를 직관으로 끝까지 파헤치는 8편 시리즈. 가중치·벡터·학습·추론·Attention·Transformer·RAG를 순서대로.
ChatGPT는 왜 모르는 걸 자신있게 지어낼까. LLM의 다섯 가지 한계부터, 그중 지식·환각을 검색으로 메우는 RAG, 벡터와 내적으로 문단을 찾는 원리, 파인튜닝·시스템 프롬프트의 자리까지.
Attention 한 번을 멀티헤드·위치인코딩·FFN으로 묶고 층층이 쌓으면 ChatGPT가 된다. Encoder/Decoder·Masked·Cross-attention, GPT가 왜 Decoder만 쓰는지, 긴 컨텍스트(O(N²)·FlashAttention)까지 고양이 예시로 끝까지.
Attention이 무엇인가. ChatGPT·Claude가 ‘그 단어’가 문장 속 누구를 가리키는지 아는 원리를 Q·K·V 검색과 softmax(Q·K^T/√d_k)·V 한 줄로, 고양이 예시 숫자까지 끝까지 따라가는 LLM 이론 집중코스 5편.
LLM 디코딩이란 무엇인가. Beam search가 왜 ChatGPT엔 안 쓰이는지, Min-P·Repetition Penalty·Stop Sequences·Constrained Decoding까지 8개 디코딩 도구를 한 줄로 잇는 LLM 이론 집중코스 4편.
AI 추론 모델 (o1·GPT-5.4 Pro·Claude Extended Thinking) 작동 원리. 23×47도 못 풀던 LLM이 60년 미해결 Erdős 수학을 80분에 푼 사건과 변형적 창의성 9개 사례까지 LLM 이론 집중코스 3.5편.
ChatGPT 작동 원리는 한 줄로 요약되지 않아요. autoregressive·KV 캐시·GPU·VRAM·양자화·Temperature·컨텍스트 윈도우·JSON streaming까지 LLM 추론의 모든 동작을 학습자가 막히는 자리 그대로 정리한 LLM 이론 집중코스 3편.
가중치 80억 개는 사람이 정하지 않는다. 데이터가 정한다. 학습이라는 산 내려가기를 직관으로 끝까지 따라가며, 왜 AI 학습이 도시 하나의 전기를 먹는지까지 도달하는 LLM 이론 집중코스 2편.
Ollama에서 시작해 LLM 본체까지 궁금해진 분들께. 가중치·벡터·토큰·임베딩의 정체를 직관으로 끝까지 파헤치는 LLM 이론 집중코스 1편.