ハーネスエンジニアリングAIエージェント開発の新常識

ハーネスエンジニアリング完全ガイド【2026年最新】AIエージェント開発の新常識

ハーネスエンジニアリングとは、AIコーディングエージェントの周囲に「ハーネス(拘束具・制御装置)」を設計し、モデルの能力を実用レベルまで引き上げる技術体系のことだ。2026年2月5日、Terraformの生みの親であるMitchell Hashimotoが自身のブログで命名し(出典: mitchellh.com)、同月OpenAIが「Codexで100万行以上のプロダクションコードを人間のコード記述ゼロで生成した」と発表して(出典: OpenAI公式)、業界の共通言語になった。

Agent = Model + Harness。生のLLMはエージェントではない。ハーネスが状態管理、ツール実行、フィードバックループ、制約を与えることで初めてエージェントになる。この公式が、2026年のAI開発の大前提だ。

ハーネスエンジニアリングの定義——4つの機能的柱

ハーネスエンジニアリングは、AIモデルの「外側」を設計する。モデルの推論能力自体には手を加えない。ハーネスが担う機能は4つに集約される(出典: OpenAI / Martin Fowler)。

ハーネスエンジニアリング の4つの柱と構造図
ハーネスエンジニアリング の基本構造を図解
  1. Constrain(制約する)——エージェントが「できること」を制限する。安全なサンドボックス、ツールの許可リスト、ファイルパス制限、コスト上限がこれにあたる
  2. Inform(情報を与える)——エージェントが「何をすべきか」を伝える。コンテキストエンジニアリング、CLAUDE.md、.cursorrules、ドキュメント整備がこれにあたる
  3. Verify(検証する)——エージェントが「正しく実行したか」を確認する。Eval(評価)、テスト自動実行、セルフ検証ループがこれにあたる
  4. Correct(修正する)——エージェントが「間違えたとき」に修正する。エラーリカバリ、リトライロジック、Human-in-the-loopがこれにあたる

Hashimotoの原文ではこう書かれている:「エージェントが間違いを犯すたびに、その間違いを二度と起こさせないような仕組みを設計する。それがハーネスエンジニアリングだ」。彼のGhosttyプロジェクトのAGENTS.mdファイルには、過去のエージェント失敗1件につき1行の防止策が記録されている。

ハーネスエンジニアリングが重要な理由——数字で証明

「モデルを変えるより、ハーネスを変えるほうが成果が出る」。これを数字で示した事例がある。

事例 変更内容 結果 出典
LangChain モデル固定(GPT-5.2-Codex)、ハーネスのみ変更 TerminalBench 2.0スコアが52.8% → 66.5%(Top30 → Top5) LangChain Blog
OpenAI Codex ハーネス設計に5ヶ月集中 100万行以上のコード、人間の記述ゼロ、3-7名で3.5 PR/日/人 OpenAI
Stripe マルチエージェント+検証ハーネス 週1,000件以上のPRを完全自動マージ MindStudio
TerminalBench 同じモデル(Opus 4.6)、異なるハーネス ランキング33位 → 5位に変動 LangChain

最後のTerminalBenchの事例が最も衝撃的だ。まったく同じモデルが、ハーネス次第でランキング33位にも5位にもなる。モデルの選択よりもハーネスの設計が重要、という逆転現象が起きている。

ハーネスエンジニアリングのコアアーキテクチャ

Hugging FaceのPhilipp Schmidが提唱したコンピュータアーキテクチャとの対比が、業界で広く採用されている(出典: philschmid.de)。

コンピュータ AIエージェント 機能
CPU 基盤モデル(LLM) 推論・思考の処理能力
RAM コンテキストウィンドウ 揮発性の作業メモリ
OS エージェントハーネス コンテキスト管理、ブートシーケンス、ライフサイクル管理
アプリケーション エージェント ユーザー固有のロジックとワークフロー

この対比から重要な洞察が得られる。CPUが同じでも、OSが違えばパフォーマンスが変わる。LinuxとWindowsで同じハードウェアの性能が異なるように、同じLLMでもハーネスが違えば成果が変わる。

AI業務自動化に興味がある方は、Instagram(@taro_taro609)にDMで「診断」と送ってください。

ハーネスの5大構成要素——実装レベルで解説

1. アクションスペース設計(ツール設計)

エージェントが使えるツールの集合を「アクションスペース」と呼ぶ。Anthropicのツール設計研究(出典: Anthropic Engineering)から得られた原則:

  • ツールは少ないほうが良い——重複するツールや過剰なツールはエージェントの判断を鈍らせる
  • 名前空間でグルーピング——asana_searchjira_searchのようにプレフィックスで整理
  • リターン値のトークン効率——UUIDではなく人間が読める名前を返す。レスポンスは25,000トークン以内に制限
  • エラーメッセージに復帰手順を含める——「エラー: 404」ではなく「このファイルは見つかりません。list_filesで正しいパスを確認してください」

2. メモリアーキテクチャ

業界は二重メモリアーキテクチャに収束している。

メモリ種別 説明 持続性 実装例
エピソード記憶 会話の全履歴 セッション内 コンテキストウィンドウ
ワーキングメモリ 過去のステップの要約 セッション内(圧縮済み) 自動コンパクション
長期記憶 プロジェクトの知識 セッション横断 CLAUDE.md, AGENTS.md, git履歴
外部記憶 ファイルシステム、DB 永続 コードベース、ドキュメント

適応型コンテキスト圧縮は、会話が長くなるにつれて5段階の圧縮を適用する:要約 → 冗長出力の切り詰め → 関連内容の統合 → メモリ圧縮 → 低優先度コンテンツの退避。

3. オーケストレーションパターン

エージェントの構成方法は4つのパターンに分類される。

  • シングルエージェント——1つのエージェントループが全ツールにアクセス。Claude Codeのコアアーキテクチャ
  • サブエージェント(階層型)——親エージェントが専門化されたサブエージェントにタスクを委譲。サブエージェントは「コンテキストの防火壁」として中間ノイズの蓄積を防ぐ
  • マルチエージェント(並列)——複数エージェントが異なる機能を同時に担当。Anthropicの3エージェントシステム:Planner → Generator → Evaluator
  • Plan-and-Execute——計画と実行を分離。読み取り専用のPlannerサブエージェント → フルツールアクセスの実行モード

4. Eval駆動開発(EDD)

ハーネスエンジニアリングにおけるテスト駆動開発(TDD)に相当する手法(出典: Anthropic)。

  • Eval-First——エージェントのロジックより先に評価ハーネスを書く
  • 確率的な成功閾値——AIは確率的なので、合格/不合格ではなく「許容パフォーマンス範囲」を定義する
  • トレースベースのデバッグ——「ソフトウェアではコードがアプリを記述する。AIではトレースがそれを行う」

5. 安全性とサンドボックス

隔離強度順に3つのアプローチがある。

方式 仕組み オーバーヘッド 用途
MicroVM Firecracker / Kata Containers 最大 最高レベルの隔離
gVisor ユーザースペースカーネル 10-20% syscall傍受
硬化コンテナ Docker + seccomp 5-10% 信頼できるコードのみ

ハーネスエンジニアリング 3つの時代の比較図
プロンプトエンジニアリングからハーネスエンジニアリングへの進化

ハーネスエンジニアリングの位置づけ——3つの時代

AI開発の進化は3つの時代に分類できる(出典: SoftmaxData)。これらは累積的であり、後の時代が前の時代を包含する。

時代 核心の問い 作業単位 人間の役割
第1期: プロンプトエンジニアリング どんな言葉を使うか? 単一のAPI呼び出し プロンプト著者
第2期: コンテキストエンジニアリング どんな情報が必要か? マルチターンセッション 情報アーキテクト
第3期: ハーネスエンジニアリング どんな環境が必要か? 完成した機能 環境デザイナー

主要プラットフォームのハーネス実装比較

ハーネスエンジニアリング プラットフォーム比較表
Claude Code・Cursor・Devin・Codexのハーネス設計を比較

Claude Code(Anthropic)

シングルスレッドのマスターループ + 規律あるツーリング + サブエージェント。Claude Agent SDKがハーネス層を駆動する。

  • CLAUDE.md: リポジトリレベルのマークダウンをシステムプロンプトに注入(推奨60行以内)
  • Skills: 知識のプログレッシブ・ディスクロージャー。呼び出し時にSKILL.mdを読み込み
  • Sub-Agents: Exploreサブエージェント(コードベース探索)、Bashサブエージェント(冗長コマンドの隔離実行)
  • Hooks: エージェントのライフサイクルイベントで自動スクリプト実行
  • MCP: 標準化されたツール統合プロトコル

Cursor

各サポートモデルに最適化されたコンポーネントをオーケストレーションする。

  • .cursor/rules/: MDCフォーマットのパス固有ルール
  • モデル固有チューニング: モデルごとにプロンプトとツール選好を調整。「grep好きなモデルと、専用検索ツールを好むモデルでは、同じ指示で異なる結果になる」

Devin(Cognition)

2コンポーネント設計: Brain(クラウドベースの知能)+ Workspace(専用環境)。

  • マルチインスタンス並列実行とサブタスク委譲
  • Devin 2.0: ACUあたり83%のタスク増加(推論とエラーリカバリの改善)
  • Infosys Topaz Fabricとのエンタープライズ統合

OpenAI Codex

ハーネスエンジニアリングをスケールで実証したプラットフォーム。5つの教訓:

  1. 環境設計 > モデル性能——進捗が遅いのはAIの限界ではなく、環境の不備
  2. 「地図を渡せ」——リポジトリを唯一の真実の源泉にする
  3. 解空間を制約する——具体的なパターン・境界・構造がエージェントの生産性を上げる
  4. 失敗から反復する——エージェントが苦戦するとき、足りないもの(ツール・ガードレール・ドキュメント)を特定しフィードバックする
  5. ガベージコレクション——定期的にエージェントを走らせ、ドキュメントの不整合や制約違反を検出する

ハーネスエンジニアリングの実践事例

企業 取り組み 成果
OpenAI ハーネス設計に5ヶ月集中、3-7名体制 100万行超のプロダクションコード、3.5PR/人/日
Stripe マルチエージェント+ステップごとの検証 週1,000件以上の完全自動PRマージ
Shopify 自動評価パイプライン+回帰テスト AI出力を製品QAと同等の厳格さで評価
Airbnb JS→TS大規模移行にLLMエージェント 数百人月のエンジニア工数を削減
Manus 6ヶ月で5回の完全リライト 「信頼できるハーネスはHugging Faceからダウンロードできない」

私がハーネスエンジニアリングで記事4本を同時制作した実体験

このブログでは、Claude CodeのハーネスをフルカスタマイズしてAIと協業している。今日公開した4記事(Claude コンピュータ操作日韓版・Sakana Chat日韓版)の制作過程そのものが、ハーネスエンジニアリングの実践だ。

使ったハーネス要素

  • CLAUDE.md: SEOルール、CTA配置、AI臭排除ルール、フォーカスキーワード完全一致チェックリストを定義
  • Memory: 過去の記事履歴をメモリに格納。テーマ重複(カニバリゼーション)を自動防止
  • Sub-Agents: リサーチ用サブエージェントを3体並列起動。Claude Computer Use、Sakana Chat、テンプレート調査を同時実行
  • Pillow生成パイプライン: アイキャッチ4枚+本文図解9枚をPythonスクリプトで一括生成→WordPress APIでアップロード
  • REST API統合: WordPress REST APIで記事公開・アイキャッチ設定・タグ付与を自動化
  • Eval: SEOスコアラー(Rank Mathシミュレーション)で75点以上を確認後に公開

結果として、リサーチ→記事執筆→画像生成→WordPress公開→タグ設定までの全工程を、1回のセッションで完了できた。

ハーネスエンジニアリングの未来

  • 自己改善するハーネス——エージェントが自身のトレースを分析し、推論エラーを検出、ツール呼び出しのループを修正する。「ソフトウェアではコードがアプリを記述する。AIではトレースがそれを行う」(出典: Arize
  • ハーネスが競争優位——「モデルはコモディティ。ハーネスが堀だ」。信頼できるハーネスの構築には数千時間が必要で、コピーできない
  • 標準化の動き——MCP(Linux Foundation寄贈)、AGENTS.md/CLAUDE.md(デファクト標準化)、Agent Skills形式(Anthropic→OpenAI・Google・GitHub・Cursorが数週間で採用)
  • Build-to-Delete——モデルが進化すれば、2024年に精巧なオーケストレーションが必要だった処理が2026年には単一プロンプトで済む。定期的に「まだ必要か」を検証し、不要になった制御層を削除する姿勢が求められる

ハーネスエンジニアリングでよくある質問

Q: ハーネスエンジニアリングとプロンプトエンジニアリングの違いは?

A: プロンプトエンジニアリングは「単一のAPI呼び出しの入力テキストを最適化する」技術です。ハーネスエンジニアリングは「エージェントのライフサイクル全体(ツール設計、メモリ管理、エラーリカバリ、安全制約、評価)のインフラを設計する」技術です。ハーネスエンジニアリングはプロンプトエンジニアリングを包含する上位概念です。

Q: ハーネスエンジニアリングを始めるには何が必要?

A: まずCLAUDE.mdまたはAGENTS.mdを作成し、プロジェクトの規約・ツール使用ルール・検証手順を記述することから始められます。次にEval(評価基準)を定義し、エージェントの出力を自動検証する仕組みを整備します。

Q: ハーネスエンジニアリングとエージェンティックエンジニアリングの関係は?

A: エージェンティックエンジニアリングはAIエージェントの計画・実装・テスト・デプロイの全プロセスを対象とする広い概念です。ハーネスエンジニアリングはその中の「インフラ設計」に特化したサブセットです。オーケストレーター(制御フロー)とハーネス(ツール管理・入出力管理)は協調して機能します。

Q: ハーネスエンジニアリングでモデルの選択は不要になる?

A: 不要にはなりませんが、重要度のバランスが変わりました。LangChainの実験では、同じモデルでもハーネス変更だけでベンチマークが52.8%→66.5%に向上しています。「モデルの選択で5%改善を狙うより、ハーネスの改善で15%改善を狙うほうが現実的」という認識が広がっています。

Q: 個人開発者でもハーネスエンジニアリングは有効?

A: 有効です。CLAUDE.mdの整備、評価基準の設定、ツール使用ルールの定義だけでも、エージェントの出力品質は大幅に向上します。この記事で紹介した4記事同時制作は、個人ブロガーのワークフローにハーネスエンジニアリングを適用した実例です。

関連記事: エージェンティックエンジニアリング完全ガイド / Claude Code Agent Teams完全ガイド / Claude コンピュータ操作 使い方

AI導入についての相談

どのAIツールが合うか分からない、自動化できる業務を整理したいという方は、30分の無料診断を行っています。
Instagram(@taro_taro609)にDMで「診断」と送ってください。

会員登録(無料)で毎週月曜ニュースレターを受け取る →


ソースリスト(40超の情報源)

一次ソース

研究論文・技術レポート

業界分析・解説

日本語ソース

最終更新日: 2026年3月25日 | 全40超のソースに基づく




毎週月曜ニュースレター

AIツールの実践知見、比較分析、ハーネス設計のケーススタディを毎週月曜日に配信。

無料で購読する

著者: VibeCoding Tailor
運営: テイラーの隠れ家(shuntailor.net)

JAKO