벡터 DB (vector database)
embedding 된 chunk 를 저장하고 빠른 유사 검색을 제공하는 전용 데이터베이스. RAG 의 표준 인프라.
1줄 정의
embedding 된 chunk 를 저장하고 빠른 유사 검색을 제공하는 전용 데이터베이스. RAG 의 표준 인프라.
전체 시스템에서 맡는 역할
chunk 를 embedding 으로 벡터화한 다음 어디에 두고 어떻게 꺼낼 것인가 를 담당하는 게 vector DB.
일반 RDB (MySQL, PostgreSQL) 는 완전 일치 검색은 잘하지만 “벡터끼리의 가까움” 고속 검색은 약하다. vector DB 는 ANN (Approximate Nearest Neighbor) 알고리즘을 넣어, 수백만~수억 벡터에서 “가까운 상위 k 개” 를 밀리초 단위로 돌려준다.
대표 선택지: Pinecone, Weaviate, Qdrant, Chroma, pgvector (PostgreSQL 확장). 용도·스케일·셀프호스트 가능 여부로 고른다.
흔한 오해
- 오해 1: RAG 를 하려면 반드시 vector DB 가 필요하다, 라고 여겨지기 쉽다.
– 실제로 소규모면 PostgreSQL + pgvector 로 충분. 그리고 agentic retrieval 처럼 grep/ripgrep 기반으로 끝내는 설계도 있다.