エージェント

評価ハーネス

エージェントの出力が期待通りかを自動で判定し続ける測定装置。folklore prompt engineering と skill promotion の境界を引く

一行定義

エージェントの出力が期待通りかを自動で判定し続ける測定装置。folklore prompt engineering と skill promotion の境界を引く

全体システムの中での役割

評価ハーネス（eval harness）は「良さそうに見える」と「再現可能に良い」を分ける装置だ。モデルやプロンプトを改善したと主張するとき、比較対象と判定基準を自動で回せる仕組みがなければ、それは感想でしかない。

位置づけとしては、harness 一般の中の測定サブシステム。harness がツール·ループ·権限·コンテキスト管理まで含む「エージェントの骨格」全体を指すのに対し、eval harness はその中で「出力の合否判定を自動化する層」に限定される。

中身は最小構成でこうなる。

Representative inputs — 実務で本当に出現する入力（3 件以上）
Eval dataset — 入力ごとの期待出力または判定ルール
Grader — 自動判定器（ルール·LLM-as-judge·embedding 類似度など）
Comparator — 旧バージョンと新バージョンを並べて走らせる仕組み
Review lane — 判定器で決め切れない境界ケースを人間が見る導線

この 5 つを満たすと、prompt hypothesis → eval → skill promotion の昇格ルートに乗る。満たさない改善は eval theater（結果があるように見えるだけの演出）に分類される。

prompt を書き換えた、skill を新設した、agent のツール選定を変えた——どの変更も eval harness に通すことで初めて「良くなった」が主張可能になる。OpenAI 公式の Prompt Optimizer + Evals が要求している最小基準（task definition、3 行以上の test rows、grader result）も、この考え方と一致する。

よくある誤解

誤解 1：eval harness = ベンチマーク（MMLU 等）、と思われがち。

– 実際には、公開ベンチマークは汎用評価であって実務タスクの合否判定にはならない。評価ハーネスは自分たちの業務 input に対する自前の判定装置。流用はできるが代替にはならない。

誤解 2：LLM-as-judge さえ置けば eval harness、と考えがち。

– 実際には、grader はあくまで 1 コンポーネント。representative inputs · comparator · review lane が揃って初めて機能する。judge だけある状態は、物差しだけあって比較対象が無い状態。

誤解 3：一度組めば終わり、と思われがち。

– 実際には、モデル·要件·失敗パターンが変わるたびに input と grader を更新しないと腐る。運用物として継続改修するのが前提。

この用語が重要な理由

eval harness の有無で、AI プロダクトの議論の質が真っ二つに分かれる。

有り：「新バージョンは旧バージョンより X タスクで 12 件中 9 件通過。FP 率は 2 件」と会話できる
無し：「なんか良くなった気がする」「あの例は上手くいった」で会話が止まる

前者は skill の昇格·降格を数字で議論できる。後者は folklore が溜まり続け、モデル更新のたびにリセットされる。

具体的な判断場面：

新しい prompt パターンを採用するか決めるとき、eval harness に通して旧版と比較する
既存スキルを捨てるか維持するか迷ったとき、最新 input で合格率を再計測する
スポンサード記事の生成プロンプトを更新するとき、過去 10 本の合格サンプルで回してから本番に出す
premature skill packaging（1〜2 件の成功で昇格する）を防ぐため、eval で再現性を確認してから昇格させる

prompt hypothesis → eval harness → skill promotion という昇格ルートを頭に入れておくと、AI 運用が「毎回ひらめきをやり直す作業」から「artifact が積み上がる作業」に変わる。これが T2 として押さえる価値。

この用語が登場する記事

ハーネスエンジニアリング、durable agent guidance、prompt→skill 승격 関連記事

次に読むべき用語 3 つ

harness — 上位概念。評価ハーネスはその中の測定層。
skill — 評価ハーネスが昇格を判定する対象。
prompt — 評価ハーネスが最初に測る仮説。

最終更新: 2026-04-19 · shuntailor.net テイラー百科事典