評価ハーネス

エージェント

評価ハーネス

エージェントの出力が期待通りかを自動で判定し続ける測定装置。folklore prompt engineering と skill promotion の境界を引く

一行定義

エージェントの出力が期待通りかを自動で判定し続ける測定装置。folklore prompt engineering と skill promotion の境界を引く

全体システムの中での役割

評価ハーネス(eval harness)は「良さそうに見える」と「再現可能に良い」を分ける装置だ。モデルやプロンプトを改善したと主張するとき、比較対象と判定基準を自動で回せる仕組みがなければ、それは感想でしかない。

位置づけとしては、harness 一般の中の測定サブシステム。harness がツール·ループ·権限·コンテキスト管理まで含む「エージェントの骨格」全体を指すのに対し、eval harness はその中で「出力の合否判定を自動化する層」に限定される。

中身は最小構成でこうなる。

  • Representative inputs — 実務で本当に出現する入力(3 件以上)
  • Eval dataset — 入力ごとの期待出力または判定ルール
  • Grader — 自動判定器(ルール·LLM-as-judge·embedding 類似度など)
  • Comparator — 旧バージョンと新バージョンを並べて走らせる仕組み
  • Review lane — 判定器で決め切れない境界ケースを人間が見る導線

この 5 つを満たすと、prompt hypothesis → eval → skill promotion の昇格ルートに乗る。満たさない改善は eval theater(結果があるように見えるだけの演出)に分類される。

prompt を書き換えた、skill を新設した、agent のツール選定を変えた——どの変更も eval harness に通すことで初めて「良くなった」が主張可能になる。OpenAI 公式の Prompt Optimizer + Evals が要求している最小基準(task definition、3 行以上の test rows、grader result)も、この考え方と一致する。

よくある誤解

  • 誤解 1:eval harness = ベンチマーク(MMLU 等)、と思われがち。

– 実際には、公開ベンチマークは汎用評価であって実務タスクの合否判定にはならない。評価ハーネスは自分たちの業務 input に対する自前の判定装置。流用はできるが代替にはならない。

  • 誤解 2:LLM-as-judge さえ置けば eval harness、と考えがち。

– 実際には、grader はあくまで 1 コンポーネント。representative inputs · comparator · review lane が揃って初めて機能する。judge だけある状態は、物差しだけあって比較対象が無い状態。

  • 誤解 3:一度組めば終わり、と思われがち。

– 実際には、モデル·要件·失敗パターンが変わるたびに input と grader を更新しないと腐る。運用物として継続改修するのが前提。

この用語が重要な理由

eval harness の有無で、AI プロダクトの議論の質が真っ二つに分かれる。

  • 有り:「新バージョンは旧バージョンより X タスクで 12 件中 9 件通過。FP 率は 2 件」と会話できる
  • 無し:「なんか良くなった気がする」「あの例は上手くいった」で会話が止まる

前者は skill の昇格·降格を数字で議論できる。後者は folklore が溜まり続け、モデル更新のたびにリセットされる。

具体的な判断場面:

  • 新しい prompt パターンを採用するか決めるとき、eval harness に通して旧版と比較する
  • 既存スキルを捨てるか維持するか迷ったとき、最新 input で合格率を再計測する
  • スポンサード記事の生成プロンプトを更新するとき、過去 10 本の合格サンプルで回してから本番に出す
  • premature skill packaging(1〜2 件の成功で昇格する)を防ぐため、eval で再現性を確認してから昇格させる

prompt hypothesis → eval harness → skill promotion という昇格ルートを頭に入れておくと、AI 運用が「毎回ひらめきをやり直す作業」から「artifact が積み上がる作業」に変わる。これが T2 として押さえる価値。

この用語が登場する記事

  • ハーネスエンジニアリング、durable agent guidance、prompt→skill 승격 関連記事

次に読むべき用語 3 つ

  • harness — 上位概念。評価ハーネスはその中の測定層。
  • skill — 評価ハーネスが昇格を判定する対象。
  • prompt — 評価ハーネスが最初に測る仮説。
最終更新: 2026-04-19 · shuntailor.net テイラー百科事典
JAKO