평가 하네스
에이전트 출력이 기대대로인지 자동 판정하는 측정 장치. folklore 와 skill 승격의 경계선
1줄 정의
에이전트 출력이 기대대로인지 자동 판정하는 측정 장치. folklore 와 skill 승격의 경계선
전체 시스템에서 맡는 역할
평가 하네스 (eval harness) 는 “좋아 보인다” 와 “재현 가능하게 좋다” 를 가르는 장치다. 모델이나 프롬프트를 개선했다고 주장할 때, 비교 대상과 판정 기준을 자동으로 돌릴 수 있는 구조가 없으면 그건 감상에 불과하다.
위치로 보면 harness 일반 안의 측정 서브시스템. harness 가 도구·루프·권한·컨텍스트 관리까지 포함한 “에이전트의 뼈대” 전체라면, eval harness 는 그 안에서 “출력의 합격·불합격 판정을 자동화하는 층” 에 한정된다.
내용은 최소 구성으로 이렇다.
- Representative inputs — 실무에서 실제로 나오는 입력 (3 건 이상)
- Eval dataset — 입력별 기대 출력 또는 판정 규칙
- Grader — 자동 판정기 (규칙·LLM-as-judge·embedding 유사도 등)
- Comparator — 구버전과 신버전을 나란히 돌리는 구조
- Review lane — 판정기로 결론이 안 나는 경계 케이스를 사람이 보는 동선
이 다섯이 채워지면 prompt hypothesis → eval → skill promotion 의 승격 루트에 오른다. 채워지지 않은 개선은 eval theater (결과가 있는 것처럼 연출된) 로 분류된다.
prompt 를 바꿨다, skill 을 새로 만들었다, agent 의 도구 선택을 고쳤다 — 어느 변경이든 eval harness 에 통과시켜야 비로소 “좋아졌다” 를 주장할 수 있다. OpenAI 공식의 Prompt Optimizer + Evals 가 요구하는 최소 기준 (task definition, 3 줄 이상의 test rows, grader result) 도 같은 사고방식이다.
흔한 오해
- 오해 1: eval harness = 벤치마크 (MMLU 등), 으로 여겨지기 쉽다.
– 실제로 공개 벤치마크는 범용 평가이고 실무 태스크 합격 판정이 아니다. 평가 하네스는 우리 업무 input 에 대한 자체 판정 장치. 참고는 되지만 대체는 안 된다.
- 오해 2: LLM-as-judge 만 두면 eval harness, 라고 여기기 쉽다.
– 실제로 grader 는 한 컴포넌트일 뿐. representative inputs · comparator · review lane 이 갖춰져야 작동한다. judge 만 있는 상태는 자 (尺) 만 있고 비교 대상이 없는 상태다.
- 오해 3: 한 번 짜면 끝, 이라고 여겨지기 쉽다.
– 실제로 모델·요건·실패 패턴이 바뀔 때마다 input 과 grader 를 갱신하지 않으면 썩는다. 운영물로 계속 손보는 게 전제다.
이 용어가 중요한 이유
eval harness 의 유무로 AI 제품 논의의 질이 두 쪽으로 갈린다.
- 있음: “신버전은 구버전보다 X 태스크에서 12 건 중 9 건 통과. FP 율은 2 건” 으로 대화할 수 있다
- 없음: “뭔가 좋아진 느낌” “저 예는 잘됐다” 에서 대화가 멈춘다
앞쪽은 skill 의 승격·강등을 숫자로 논의할 수 있다. 뒤쪽은 folklore 만 쌓이고 모델이 업데이트될 때마다 리셋된다.
구체 판단 장면:
- 새 prompt 패턴 채택 여부를 정할 때, eval harness 로 구판과 비교한다
- 기존 스킬을 버릴지 유지할지 망설일 때, 최신 input 으로 합격률을 재측정한다
- 스폰서드 기사 생성 프롬프트를 갱신할 때, 과거 10 건의 합격 샘플로 돌리고 본 런칭
premature skill packaging(1~2 건 성공으로 승격) 을 막으려고 eval 로 재현성을 확인한 뒤 승격시킨다
prompt hypothesis → eval harness → skill promotion 이라는 승격 루트 를 머리에 넣어두면 AI 운영이 “매번 영감을 다시 짜내는 작업” 에서 “artifact 가 쌓이는 작업” 으로 바뀐다. 이게 T2 로 잡아 둘 가치다.
이 용어가 나오는 기사
- 하네스 엔지니어링, durable agent guidance, prompt→skill 승격 관련 기사