메타 하네스와 오토리서치, 어떤 순서로 배워야 하나

메타 하네스와 오토리서치, 어떤 순서로 배워야 하나

📚 이 글은 AI 공부 지도 20편 시리즈에세이형 입구 입니다. 각 섹션의 개념을 더 깊게 배우고 싶으시면 본편 기사로 점프할 수 있게 링크가 박혀 있어요.


요즘 AI 쪽에서 제일 위험한 착각 중 하나가 뭔지 아세요?

뭔가 새로운 기능이 나오면, 사람들이 그걸 곧바로 “이제 AI가 스스로 진화한다”, “이제 사람 없이도 알아서 더 좋아진다”, “이제 하네스까지 자동으로 고친다” 이런 식으로 받아들이는 겁니다.

이게 왜 위험하냐면, 그 말을 하는 사람도 자기가 정확히 뭘 보고 있는지 모를 때가 많기 때문입니다.

예를 들어 autoresearch를 본다고 해볼게요. 그러면 많은 사람들이 그냥 이렇게 이해합니다.

  • 아, 이건 AI가 혼자 계속 연구하는 거구나
  • 오래 돌리면 점점 더 좋아지는 agent구나
  • 사람보다 더 좋은 답을 스스로 찾는 구조구나

비슷하게 Meta-Harness를 보면 또 이렇게 봅니다.

  • 아, AI가 자기 프롬프트를 고치는 건가 보다
  • 하네스도 이제 AI가 알아서 만드는 건가
  • 그럼 이제 사람은 안 해도 되겠네

근데 이런 식으로 이해하면 거의 100% 틀어집니다.

왜냐면 이건 AI가 더 똑똑해졌다는 이야기라기보다, AI가 일하는 시스템에서 개선 루프를 어디에 거는가의 이야기이기 때문입니다.

이건 정말 다릅니다.

똑똑함의 문제와 구조의 문제는 겉으로는 비슷해 보여도 완전히 다른 층입니다.

그래서 이 주제를 제대로 이해하려면, 바로 Meta-Harness 논문이나 autoresearch repo로 들어가면 안 됩니다. 그렇게 하면 거의 반드시 추상적으로만 이해합니다.

정확한 순서는 이겁니다.

  1. LLM이 원래 뭔지
  2. AI agent가 뭐가 되면 agent가 되는지
  3. 하네스가 뭔지
  4. retrieval / memory가 agent 안에서 어떤 역할을 맡는지
  5. eval과 optimization이 뭔지
  6. 그 다음에 autoresearch
  7. 그 다음에 Meta-Harness
  8. 마지막으로 OMX, OMC 같은 실무 레이어

이 순서가 왜 맞는지 하나씩 설명해 볼게요.


1. 제일 먼저 알아야 하는 건 “LLM이 원래 뭔지”다

FIG. 8단계 학습 흐름
1
용어 정리부터 (F0)
2
왜 LLM이 동작하나 (F1)
3
구조 이해 — Transformer 계열 (F2-F4)
4
입력·학습 — Embedding·gradient (F5-F6)
5
쓰는 법 — Agent·Prompt (B1-B2)
6
쓰는 결정 — Fine-tune·RAG (B3, M1-M3)
7
평가하는 법 — Evaluation·Optim (M4-M5)
8
연구·운영 — Autoresearch·Meta (M6-M10)
“읽는 순서”가 곧 “이해의 두께”가 되는 8단계

이 말을 하면 많은 사람이 “아니 그건 너무 기초 아닌가?”라고 합니다. 근데 진짜로 여기서부터 안 잡고 가면, 나중에 메타 하네스나 오토리서치를 거의 무조건 잘못 읽습니다.

왜냐면 이 주제에서 가장 많이 생기는 착각이 모델이 잘하는 일시스템이 잘하게 만든 일을 구분 못하는 데서 나오기 때문입니다.

LLM은 기본적으로 굉장히 단순하게 말하면 다음 토큰을 예측하는 함수입니다. 모델 자체는 텍스트를 읽고, 그 다음에 올 법한 걸 예측하고, 그걸 반복해서 문장을 만들어내는 것 — 이게 핵심입니다.

이 말이 왜 중요하냐면, 모델 자체는 원래부터 “계속 시도하고 실패하고 다시 고치는 구조”를 갖고 있지 않기 때문입니다.

여기서 첫 번째 구분이 생깁니다.

  • 모델 능력
  • 모델을 둘러싼 시스템 능력

이걸 구분하지 않으면, 나중에 autoresearch를 보고도 “모델이 혼자 연구한다”는 식의 감탄만 하게 됩니다.

이 시점에서 꼭 기억해야 하는 문장은 이겁니다.

모델은 엔진이고, agent는 그 엔진이 들어간 작업 시스템이다.

🔍 이 부분 더 깊게 배우실 분은 여기 → 👉 F1. LLM이 뭐냐고 물으면 막히는 분께 (자동완성이 끝까지 간 이야기. 토큰·파라미터·환각·학습/추론까지 비유 하나로)
그 안의 Transformer 구조까지 가고 싶으면 👉 F2. Transformer가 뭔지 + F4. Attention is All You Need 해설


2. 그 다음은 “agent가 뭐가 되면 진짜 agent인가”다

여기서 또 사람들은 되게 쉽게 헷갈립니다. 그냥 Claude나 Codex가 길게 대화하면 이미 agent처럼 느껴집니다.

agent라고 부르려면 최소한 이런 층이 필요합니다.

  • 어떤 목표가 있다
  • 상태를 본다
  • 도구를 쓴다
  • 한 번에 안 끝나도 다시 한다
  • 결과를 보고 다음 행동을 바꾼다

이 다섯 가지가 들어가면 이제 “답변기”보다 “작업 시스템”에 가까워집니다.

오토리서치의 핵심은 도구를 한두 개 더 붙인 게 아니라 반복 시도 자체가 시스템 안에 들어간다는 데 있습니다.

여기서부터 loop라는 단어가 중요해집니다.

사실 메타 하네스나 오토리서치의 핵심은 둘 다 loop 이야기입니다. 다만 아직은 어디에 걸린 loop인지 구분이 안 되는 상태죠.

🔍 이 부분 더 깊게 → 👉 B1. Agent란 무엇인가 (LLM과 agent 갈리는 5가지 층) + 그 다음 👉 M3. Agent 심화 (tool use·state·planning·reflection 실제 메커니즘)


3. 여기서 진짜 중요한 게 “하네스”다

많은 사람들이 여기서부터 갑자기 막힙니다. 왜냐면 하네스라는 말이 직관적이지 않거든요.

하네스는 그냥 AI가 일하는 작업 환경 이라고 보면 됩니다.

좀 더 정확히 말하면, 어떤 규칙이 있는지, 어떤 파일을 먼저 읽는지, 어떤 도구를 쓸 수 있는지, 어떤 건 금지인지, 검증은 어떻게 하는지, 실패하면 무엇을 다시 보는지 — 이걸 묶은 게 하네스입니다.

여기서 사람들이 두 번째로 많이 틀립니다.

하네스 = 긴 프롬프트 이렇게 생각합니다. 근데 그건 아닙니다.

하네스는 보통 system prompt, AGENTS.md / CLAUDE.md, skills, hooks, permissions, sandbox, branch 전략, compaction 전략, verification loop, handoff 방식, 상태 저장 구조 — 이런 걸 다 포함합니다. 거의 운영체제 비슷한 겁니다.

왜 이게 중요하냐면, 실무에서 agent 품질 차이는 생각보다 모델보다 하네스에서 더 크게 나기 때문입니다.

좋은 agent는 똑똑한 모델보다 먼저, 좋은 작업 환경을 가진다.

🔍 이 부분 더 깊게 → 👉 M4. Harness 이해 (8층 분해 + Claude Code CLAUDE.md 실전 예시 + 설계 실수 7가지)


4. 그 다음은 retrieval / memory를 따로 봐야 한다

이 단계가 생각보다 중요합니다. 왜냐면 agent가 반복 시도하고 자기 루프를 돌릴 때, 어느 순간 “뭘 보고 판단하느냐”의 문제가 반드시 나오기 때문입니다.

지금 위키에서 정리한 retrieval layer의 핵심은 이 네 층으로 나뉩니다.

  1. embedding 기반 기초 검색
  2. GraphRAG 같은 graph-aware retrieval
  3. agentic retrieval / agentic search
  4. memory adaptation (예: Doc-to-LoRA)

retrieval도 이미 한 덩어리가 아닙니다. retrieval을 agent의 입력 구조로 보는 감각이 필요합니다.

🔍 이 부분 더 깊게 → 👉 F5. Embedding (왕-남자+여자=여왕 비유) + 👉 M1. Retrieval Layer 4층 + 👉 M2. Long-context와 Memory (긴 컨텍스트 ≠ 기억)


5. 그 다음은 evaluation이다

여기서 많은 사람이 또 점프를 너무 빨리 합니다.

“자가개선 loop”라고 하면 곧바로 “와 그럼 점점 좋아지겠네”라고 생각합니다. 근데 잠깐만요. 무엇을 기준으로 좋아졌다고 판정하죠?

이 질문이 없으면 자가개선은 거의 다 착시입니다.

Meta-Harness든 autoresearch든, self-improving loop는 무엇을 더 좋다고 보는가가 있어야 돌아갑니다. 그게 없으면 그냥 무한 반복입니다.

🔍 이 부분 더 깊게 → 👉 M5. Evaluation / Optimization (benchmark·task-specific·production 3층 + DSPy + SWE-bench 함정)


6. 그 다음이 오토리서치다

이제야 오토리서치가 제대로 보이기 시작합니다.

오토리서치를 그냥 먼저 보면 “아 뭔가 agent가 계속 연구하는구나” 정도로만 보입니다. 근데 지금까지의 단계를 밟고 오면, 질문이 달라집니다.

지금 위키 기준으로 오토리서치는 가장 보수적으로 이렇게 읽는 게 맞습니다.

  • persistent trial-and-error loop
  • one-shot executor와 대비되는 구조
  • “오래 돌리는 것”보다 “반복 시도와 수정이 구조로 들어가 있는 것”이 핵심

🔍 이 부분 더 깊게 → 👉 M6. Autoresearch (가설·행동·관찰·해석·업데이트 5요소 + Sakana AI Scientist · FunSearch 사례 + 한계)


7. 마지막에 메타 하네스를 봐야 한다

이제 메타 하네스를 보면 이게 왜 단순한 “AI가 자기 프롬프트를 고친다” 수준이 아닌지 보입니다.

Meta-Harness의 핵심은 한 문장으로 요약하면 이겁니다.

개선의 대상을 답변이 아니라 하네스 자체로 올린다.

autoresearch가 “문제 풀이/탐색 loop를 개선하는 방향”에 가깝다면, Meta-Harness는 “그 loop가 올라타는 작업환경 자체를 개선하는 방향”에 가깝습니다.

둘 다 자기개선이긴 한데 무엇을 고치느냐가 다릅니다.

  • autoresearch = 반복 시도 구조
  • Meta-Harness = 하네스 최적화 구조

🔍 이 부분 더 깊게 → 👉 M7. Meta-Harness (5가지 optimization 대상 + DSPy 위치 + “자기개선 AI” 과장 해체) + 👉 M10. Meta-Harness 실무 해설 (회장 본인의 실무 답)


8. 그러면 OMX, OMC는 여기서 어디냐

이제야 이 질문을 할 수 있습니다.

OMX, OMC를 너무 빨리 보면 많은 사람들이 이런 식으로 착각합니다.

  • 오, 얘도 자기개선하나?
  • 오, 얘도 메타 하네스인가?
  • 오, 얘도 autoresearch인가?

근데 현재 위키 기준으로는 그렇게 바로 말하면 과장입니다.

OMX는 Codex 위에 workflow/state/runtime overlay를 얹는 레이어 로 읽는 게 가장 정확합니다.

OMC도 비슷합니다. Claude Code를 더 운영 가능한 작업면으로 만든다, 세션 밖의 runtime과 artifact를 붙인다, 팀 작업과 기억 구조를 붙인다 — 여기까지는 강합니다.

하지만 그게 바로 Meta-Harness라고 말할 정도로 하네스 자체의 자동 최적화가 강하게 확인된 건 아닙니다.

  • OMC: Claude Code 위 orchestration/runtime layer
  • OMX: Codex 위 orchestration/runtime layer + 일부 self-improving surface
  • autoresearch: persistent experiment loop의 연구/설계 방향
  • Meta-Harness: 하네스 자체를 optimization 대상으로 올리는 연구 방향

이렇게 놓는 게 제일 깔끔합니다.

🔍 이 부분 더 깊게 → 👉 M8. OMX / OMC 실무 레이어 위치 (철학 vs 실무 대응물 거리 측정 + adopt-partial 판정 근거)


9. 결국 공부 순서를 다시 정리하면

이제 진짜로 학습 순서를 다시 한 번 정리해 보겠습니다.

단계 무엇을 본편 링크
1 LLM이 원래 뭘 하는가 F1 · F2 · F3 · F4
2 Agent는 어떤 순간에 작업 시스템이 되는가 B1 · M3
3 하네스 (작업환경) 감각 M4
4 retrieval / memory가 입력 구조를 바꾼다 F5 · M1 · M2
5 evaluation 없이 self-improving은 착시 M5
6 autoresearch — 반복 시도 구조 M6
7 Meta-Harness — 하네스 자체 optimization M7
8 OMX / OMC — 실무 runtime layer 위치 M8

추가 보강:
F0 용어 구분 (AI·ML·DL·LLM) — 시작점
F6 학습이란 무엇인가 — gradient descent 직관
B2 프롬프트는 왜 작동하는가 — context-conditional probability
B3 Fine-tuning vs RAG vs Prompt — 실무 판단 트리
M9 RAG는 죽었냐? 자기 말 해설


닫는 한 문장

Meta-Harness와 autoresearch를 이해하는 핵심은, AI가 더 똑똑해졌는가가 아니라, 개선 루프를 답변·탐색·하네스·작업환경 중 어디에 걸고 있는가 를 보는 데 있습니다.


📚 전체 20편 시리즈를 처음부터 따라가시려면 → AI 공부 지도 입구 로 가세요. 3가지 독법(처음부터 / LLM은 아는 분 / Meta-Harness만 급한 분)이 안내돼 있습니다.

📍 AI 공부 지도 — 2/29편
이 글은 AI의 기초부터 Meta-Harness·응용 비교까지 순서대로 읽는 29편 시리즈의 2편입니다.
📚 전체 지도 보기

💡 이 편의 한 줄 요약

왜 이 순서로 배워야 하는지를 8단계 흐름으로 풀어낸 에세이. 각 단계에서 본편으로 점프할 수 있는 링크가 박혀 있다.

ソースリスト


著者: 바이브코딩 태일러 (VibeCoding Tailor) — Lovable公式アンバサダー. AI·バイブコーディング専門メディアshuntailor.net運営.
本シリーズ “AI 공부 지도” 20편은 위키 자료와 공식 논문·공식 문서를 근거로 정리한 체계적 학습 커리큘럼입니다.

JAKO