Feynman AI 리서치 에이전트논문 검증부터 실험 재현까지

Feynman AI 리서치 에이전트를 알고 있는가? ChatGPT의 ‘Deep Research’나 Perplexity를 써서 조사하는 사람은 많다. 그런데 나온 답변의 인용 출처를 하나하나 열어서 확인해 본 적이 있다면, 이런 생각을 한 적이 있을 것이다.

“이 인용, 진짜 맞는 거야?”

Feynman AI 리서치 에이전트는 그 의문 자체를 자동화하는 오픈소스 AI 리서치 도구다. 논문을 읽고, 웹을 검색하고, 초안을 쓰고, 실험을 실행하고, 모든 주장에 인용을 붙인다. 게다가 로컬에서 돌아간다.

이 글에서는 Feynman AI 리서치 에이전트가 기존 리서치 도구와 뭐가 다른지, 어떻게 쓰는지, 한계는 어디인지 정리한다.

Feynman AI 리서치 에이전트란?

Feynman은 Companion AI(getcompanion-ai)가 개발하는 오픈소스 CLI 도구다.

항목 내용
공식 사이트 feynman.is
GitHub getcompanion-ai/feynman(★3,700+)
라이선스 MIT
최신 버전 v0.2.16(2026년 3월 29일)
언어 TypeScript(68.4%)
동작 환경 macOS / Linux / Windows
필수 조건 Node.js 20.19.0 이상

이름은 물리학자 리처드 파인만에서 따왔다. “이해하지 못하는 것은 설명할 수 없다”는 그의 철학이 이 도구의 설계 사상과 직결된다. 근거 없는 주장은 출력하지 않는다.

Feynman AI 리서치 에이전트와 기존 도구의 결정적 차이

기능 ChatGPT Deep Research Perplexity Feynman
웹 검색
논문 검색 △(제한적) ○(alphaXiv 통합)
인용 포함 출력
인용 정확성 검증 ○(Verifier 에이전트)
코드-논문 정합성 감사 ○(/audit)
실험 재현 실행 ○(/replicate + Docker/GPU)
모의 피어 리뷰 ○(/review)
로컬 실행
요금 월 $20~200 월 $20 무료(OSS)

요약하면, ChatGPT나 Perplexity는 “검색해서 답하는” 도구지만, Feynman AI 리서치 에이전트는 “검색하고, 검증하고, 재현하고, 리뷰까지 하는” 연구 파이프라인이다.

4개의 전문 에이전트

Feynman 내부에는 4개의 전문 에이전트가 있다. 인간 연구 팀을 그대로 소프트웨어로 옮긴 구성이다.

FEYNMAN MULTI-AGENT ARCHITECTURE
Lead Researcher

태스크 배분 → 서브 에이전트 호출 → 결과 통합
↓ ↓ ↓ ↓
Researcher
논문·웹·GitHub·문서에서 증거 수집. alphaXiv로 학술 횡단 검색.
Reviewer
모의 피어 리뷰. FATAL/MAJOR/MINOR 3단계로 주장 강도 평가.
Writer
리서치 노트를 구조화. 합의·불일치·미해결 질문으로 정리.
Verifier
전체 인용 크로스체크. 데드 링크·부정확한 인용 플래그.
↓ ↓ ↓ ↓
인용 검증 완료 리서치 브리프
모든 주장에 소스 URL 포함·신뢰도 평가·데드 링크 없음

1. Researcher(리서처)

논문, 웹, GitHub 리포지토리, 문서에서 증거를 수집한다. alphaXiv로 학술 논문을 횡단 검색하고 여러 소스 타입을 대조한다.

2. Reviewer(리뷰어)

수집된 지견에 대해 모의 피어 리뷰를 실행한다. 주장의 강도를 FATAL / MAJOR / MINOR 3단계로 평가하고, 근거가 약한 부분, 맥락이 빠진 부분, 소스 간 모순을 플래그한다.

3. Writer(라이터)

리서치 노트를 구조화된 출력으로 정리한다. 문헌 리뷰, 리서치 브리프, 요약을 합의·불일치·미해결 질문 섹션으로 구성한다. 중요한 규칙: 근거 없는 주장을 만들어내는 것은 금지.

4. Verifier(검증자)

출력 내 모든 인용을 크로스체크한다. 데드 링크, 인용 부정확성, 논문과 코드의 불일치를 플래그한다. 다른 도구에 없는 최대 특징이다.

Feynman AI 리서치 에이전트의 9가지 워크플로우

FEYNMAN 9 WORKFLOWS
조사계
/deepresearch멀티 에이전트 병렬 조사 → 인용 검증 완료 브리프
/lit문헌 리뷰 → 합의 매핑
/compare소스 비교 → 일치/모순 매트릭스
검증계
/review모의 피어 리뷰 → 중대도 스코어 + 수정 제안
/audit논문 vs 코드 감사 → 재현성 플래그
실행계
/replicate재현 계획 + Docker/GPU 샌드박스 실행
/autoresearch자율 연구 루프(가설→실험→측정→반복)
출력·감시계
/draft논문 스타일 출력 → 인라인 인용 포함
/watch정기 모니터링 → 새 논문·코드·업데이트 추적
커맨드 내용 활용 시점
/deepresearch 멀티 에이전트 조사. 논문·웹·코드 병렬 탐색 새로운 주제의 전체 그림을 파악할 때
/lit 문헌 리뷰. 1차 소스에서 합의 매핑 선행 연구의 합의와 논쟁점을 정리할 때
/review 모의 피어 리뷰. 중대도 스코어와 수정 제안 출력 자기 논문/리포트를 투고 전 체크할 때
/audit 논문 대 코드 감사. 재현성 검증 “이 논문 결과, 진짜 코드로 재현 가능해?”라는 의문이 들 때
/replicate 재현 계획 작성 + Docker 컨테이너 샌드박스 실행 관심 있는 실험을 직접 돌려보고 싶을 때
/compare 소스 간 비교. 일치/모순 매트릭스 작성 여러 논문이나 리포트의 주장을 대조할 때
/draft 논문 스타일 출력. 인라인 인용 포함 조사 결과를 공식 문서로 정리할 때
/autoresearch 자율 연구 루프(가설→실험→측정→반복) 탐색적 리서치를 자동으로 돌릴 때
/watch 정기 모니터링. 새 논문·코드·제품 업데이트 추적 특정 주제의 최신 동향을 지속적으로 캐치할 때

설치와 초기 설정

macOS / Linux

curl -fsSL https://feynman.is/install | bash

Windows(PowerShell)

irm https://feynman.is/install.ps1 | iex

설치 후 초기 설정:

feynman setup    # 가이드 위자드 실행
feynman doctor   # 환경 진단
feynman status   # 현재 모델·alphaXiv 접속 상태 확인

지원 모델(우선순)

  1. Claude Opus 4.6
  2. Claude Opus 4.5
  3. Claude Sonnet 4.5
  4. GPT-5.4
  5. GPT-5

자기 API 키를 사용하므로 Feynman 자체 이용료는 제로. 다만 API 이용료와 클라우드 GPU(Modal/RunPod) 비용은 별도다.

실제 사용법: 3가지 시나리오

시나리오 1: 새 주제의 전체 그림 잡기

feynman deepresearch "LLM 스케일링 법칙 최신 동향"

4개 에이전트가 병렬로 논문·웹·GitHub을 조사하고, 인용 검증 완료된 리서치 브리프를 출력한다.

시나리오 2: 논문 감사

feynman
> /audit arxiv:2401.xxxxx against https://github.com/author/repo

논문 주장과 코드 구현을 대조하고, 불일치를 리스트업한다.

시나리오 3: 특정 주제 지속 모니터링

feynman
> /watch "multimodal reasoning" --interval weekly

매주 새 논문·코드·제품 업데이트를 체크해서 차분 리포트를 생성한다.

직접 써본 소감: 인용 품질이 차원이 다르다

처음엔 “또 새로운 AI 도구인가”라고 생각했다. Deep Research 유사품이 매주 나오는 2026년, 하나하나 다 써볼 시간은 없다.

근데 Feynman은 달랐다.

feynman deepresearch "LLM 에이전트의 메모리 설계"를 입력하고 몇 분 기다렸다. 돌아온 건 주제별로 정리된 리서치 브리프. 요약, 주요 발견, 각 주장의 소스 URL, 그리고 발견별 신뢰도 평가. 30초 만에 대략적인 개요가 나오고, 몇 분이면 본격적인 문헌 리뷰에 가까운 결과물이 완성된다.

가장 놀란 건 인용 품질이다. 돌아온 URL을 하나씩 다 열어봤다. 전부 연결된다. 실존하는 논문이나 문서에 제대로 링크되어 있다. ChatGPT Deep Research로 같은 걸 하면, 30% 정도는 “그럴듯하지만 존재하지 않는 URL”이 섞인다. Feynman에는 그게 없었다.

개발자 Advait Paliwal은 “Claude Code for research”라고 표현한다. 정확한 비유다. Claude Code가 코딩을 “대화하면서 진행하는 경험”으로 바꾼 것처럼, Feynman은 리서치를 “에이전트에게 맡기고 검증하는 경험”으로 바꾼다.

재미있는 건 Feynman 스킬을 Claude Code에 바로 통합할 수 있다는 점이다. 풀 설치 없이도 리서치 스킬만 Claude Code에 추가해서 평소 코딩 워크플로우 안에서 리서치 기능을 쓸 수 있다.

다만 v0.2.x다. 매일 메인 도구로 쓰기엔 아직 이르다. 설정 파일 스펙이 바뀌거나 특정 워크플로우에서 에러가 나기도 한다. “미래의 메인 리서치 도구 후보”로, 지금부터 손에 익혀둔다——그 정도 거리감이 딱 맞다.

알아둬야 할 한계

1. API 키 필요

Claude/OpenAI API 키가 필요하다. 무료인 건 Feynman 본체뿐, LLM 이용료는 자기 부담. deepresearch 한 번 돌리면 모델과 주제 복잡도에 따라 몇 달러가 나올 수 있다.

2. Node.js 환경 전제

Node.js 20.19.0 이상 필요. 프로그래밍 환경 셋업에 익숙하지 않으면 진입 장벽이 된다.

3. 인용 검증은 완벽하지 않다

Verifier가 체크해줘도, 데드 링크나 일시적으로 접근 불가한 소스는 놓칠 수 있다. 최종 확인은 사람이 해야 한다.

4. 한국어 대응은 제한적

CLI 자체는 영어. 한국어 논문이나 웹 소스를 다룰 수 있는지는 백엔드 LLM 능력에 의존한다.

5. 버전 0.2.x

아직 초기 프로젝트다. 브레이킹 체인지나 버그는 감안하고 써야 한다.

어떤 사람에게 맞나

이런 사람 추천도
논문을 일상적으로 읽는 연구자·대학원생 ★★★★★
기술 블로그에서 정확한 정보를 발신하고 싶은 라이터 ★★★★☆
경쟁 조사나 시장 리서치를 하는 실무자 ★★★★☆
프로그래밍 경험 없는 일반 사용자 ★★☆☆☆
간단한 질문에 바로 답이 필요한 사람 ★☆☆☆☆

Feynman은 “빨리 답이 필요한” 사람을 위한 도구가 아니다. “정확한 답이 필요한” 사람을 위한 도구다.

정리: 리서치의 정의가 바뀐다

  • “검색해서 요약하는 것”만으로는 부족하다
  • “인용을 검증하는 것”이 당연해진다
  • “실험을 재현하는 것”까지가 리서치가 된다

Feynman AI 리서치 에이전트는 그 최전선에 있다. 오픈소스로, 로컬에서 돌아가고, 4개 전문 에이전트가 연구 팀처럼 협업한다.

관심이 있다면, 먼저 /deepresearch로 자기 연구 주제를 던져보자. 인용 검증 완료된 리서치 브리프가 돌아오는 그 순간, “AI 리서치”의 의미가 바뀐다.

매주 월요일, AI 트렌드 뉴스레터 배신 중

회원 등록하면 매주 월요일 “이번 주의 AI·바이브 코딩 최신 정보”를 보내드립니다.
배너 광고 없이 정말 도움이 되는 정보만 엄선하는 클린 AI 전문 미디어입니다.

무료 회원 등록(30초) →

Feynman AI 리서치 에이전트 자주 묻는 질문

Q. Feynman은 무료인가요?

Feynman 본체는 MIT 라이선스 무료 소프트웨어입니다. 다만 백엔드 LLM(Claude/GPT) API 이용료와 GPU 실험용 Modal/RunPod 비용은 별도입니다.

Q. ChatGPT Deep Research와 뭐가 다른가요?

최대 차이는 “인용 검증”과 “실험 재현”입니다. ChatGPT는 검색해서 요약하지만, 인용이 맞는지 자동 검증은 하지 않습니다. Feynman은 전용 Verifier 에이전트가 전체 인용을 크로스체크하고, /replicate로 실험 재현까지 실행합니다.

Q. 프로그래밍 경험이 없어도 쓸 수 있나요?

CLI 도구이므로 터미널 조작과 Node.js 설치가 필요합니다. GUI는 없습니다. 커맨드라인 조작에 익숙하지 않다면, ChatGPT나 Perplexity가 먼저 쓰기 편합니다.

Q. 한국어로 쓸 수 있나요?

CLI 자체는 영어지만, 백엔드 LLM(Claude Opus 등)은 한국어 프롬프트를 받습니다. 다만 한국어 논문 검색 정확도는 alphaXiv 커버리지에 의존합니다.

Q. 어떤 LLM 모델이 좋나요?

Claude Opus 4.6이 최우선으로 자동 선택됩니다. 연구 정확도를 중시한다면 Claude 계열, 속도를 중시한다면 GPT 계열을 선택하면 됩니다.

회원 등록(무료)으로 매주 월요일 뉴스레터 받기 →


소스 리스트:


저자: VibeCoding Tailor(Lovable 공식 앰배서더)
운영: 테일러의 비밀 아지트(shuntailor.net)

JAKO