評価ハーネス
エージェントの出力が期待通りかを自動で判定し続ける測定装置。folklore prompt engineering と skill promotion の境界を引く
一行定義
エージェントの出力が期待通りかを自動で判定し続ける測定装置。folklore prompt engineering と skill promotion の境界を引く
全体システムの中での役割
評価ハーネス(eval harness)は「良さそうに見える」と「再現可能に良い」を分ける装置だ。モデルやプロンプトを改善したと主張するとき、比較対象と判定基準を自動で回せる仕組みがなければ、それは感想でしかない。
位置づけとしては、harness 一般の中の測定サブシステム。harness がツール·ループ·権限·コンテキスト管理まで含む「エージェントの骨格」全体を指すのに対し、eval harness はその中で「出力の合否判定を自動化する層」に限定される。
中身は最小構成でこうなる。
- Representative inputs — 実務で本当に出現する入力(3 件以上)
- Eval dataset — 入力ごとの期待出力または判定ルール
- Grader — 自動判定器(ルール·LLM-as-judge·embedding 類似度など)
- Comparator — 旧バージョンと新バージョンを並べて走らせる仕組み
- Review lane — 判定器で決め切れない境界ケースを人間が見る導線
この 5 つを満たすと、prompt hypothesis → eval → skill promotion の昇格ルートに乗る。満たさない改善は eval theater(結果があるように見えるだけの演出)に分類される。
prompt を書き換えた、skill を新設した、agent のツール選定を変えた——どの変更も eval harness に通すことで初めて「良くなった」が主張可能になる。OpenAI 公式の Prompt Optimizer + Evals が要求している最小基準(task definition、3 行以上の test rows、grader result)も、この考え方と一致する。
よくある誤解
- 誤解 1:eval harness = ベンチマーク(MMLU 等)、と思われがち。
– 実際には、公開ベンチマークは汎用評価であって実務タスクの合否判定にはならない。評価ハーネスは自分たちの業務 input に対する自前の判定装置。流用はできるが代替にはならない。
- 誤解 2:LLM-as-judge さえ置けば eval harness、と考えがち。
– 実際には、grader はあくまで 1 コンポーネント。representative inputs · comparator · review lane が揃って初めて機能する。judge だけある状態は、物差しだけあって比較対象が無い状態。
- 誤解 3:一度組めば終わり、と思われがち。
– 実際には、モデル·要件·失敗パターンが変わるたびに input と grader を更新しないと腐る。運用物として継続改修するのが前提。
この用語が重要な理由
eval harness の有無で、AI プロダクトの議論の質が真っ二つに分かれる。
- 有り:「新バージョンは旧バージョンより X タスクで 12 件中 9 件通過。FP 率は 2 件」と会話できる
- 無し:「なんか良くなった気がする」「あの例は上手くいった」で会話が止まる
前者は skill の昇格·降格を数字で議論できる。後者は folklore が溜まり続け、モデル更新のたびにリセットされる。
具体的な判断場面:
- 新しい prompt パターンを採用するか決めるとき、eval harness に通して旧版と比較する
- 既存スキルを捨てるか維持するか迷ったとき、最新 input で合格率を再計測する
- スポンサード記事の生成プロンプトを更新するとき、過去 10 本の合格サンプルで回してから本番に出す
premature skill packaging(1〜2 件の成功で昇格する)を防ぐため、eval で再現性を確認してから昇格させる
prompt hypothesis → eval harness → skill promotion という昇格ルートを頭に入れておくと、AI 運用が「毎回ひらめきをやり直す作業」から「artifact が積み上がる作業」に変わる。これが T2 として押さえる価値。
この用語が登場する記事
- ハーネスエンジニアリング、durable agent guidance、prompt→skill 승격 関連記事