なぜ同じ GPT-4 や Claude を使っている2つの製品なのに、AI のパフォーマンスがこれほどまでに大きく違うのか?AI 開発者の Akshay Pachaar が X 上で「Agent Harness Engineering(エージェント・ハーネス・エンジニアリング)」の枠組みを提案し、精密な比喩で説明しています。むき出しの LLM は、OS のない CPU のようなもの——AI 製品の表現力を本当に決めるのは、底層モデルそのものではなく、モデルの周りに構築される調整(ディスパッチ)のループ、ツール統合、そして記憶管理のアーキテクチャです。
CPU には OS が必要、LLM には Agent Harness が必要
Pachaar は、綿密な類比のセットを作り上げました。LLM は CPU、コンテキストウィンドウは RAM、Vector DB はハードディスク、Tools はデバイスドライバ、そして Agent Harness は OS です。この枠組みは、業界で長く観察されてきた現象を説明します——LangChain TerminalBench のランキング表で、同じ底層モデルを使う別々の製品では、性能差が非常に大きくなり得るということです。
重要な洞察は次の点にあります。モデル能力は必要条件ですが、harness のエンジニアリング品質が十分条件です。設計の行き届いた Agent Harness は、中位モデルを、ハーネスが粗い競合製品に搭載されたトップモデルよりも上回らせることができます。
Agent Harness の4つの主要コンポーネント
Pachaar の枠組みによれば、完全な Agent Harness には4つの重要な側面があります。まず調整ロジック(Scheduling Loop)です。エージェントがいつ考え、いつ行動し、いつツールを呼び出すかを決めます。次にツール・エコシステム(Tool Ecosystem)です。エージェントが操作できる外部システムを定義します。第三に記憶管理(Memory Management)です。短期の対話記憶と長期の知識検索を扱います。最後にコンテキスト管理(Context Management)です。限られた context window の中にどの情報を入れるかを決めます。
これら4つのコンポーネントの設計上のトレードオフが、同じモデルでも製品によって全く異なる行動パターンを生み出します。これが、OpenAI の ChatGPT、Anthropic の Claude、そしてさまざまな第三者の AI 製品で、たとえ底層モデルの能力が近いとしても、使い勝手がまったく異なる理由です。
反論:十分に強いモデルは Harness 機能を内面化できるのか?
この枠組みには課題もあります。一部の研究者は、基盤モデルが進化し続ける中で——特に推論能力の世代間の飛躍が起きることで——十分に強力なモデルは最終的に、harness の機能の大部分を内面化するようになるのではないか、という見方をしています。これは、現代の CPU が、過去に独立したチップで処理する必要があった機能を徐々に統合していったのと似ています。この傾向が本当になるなら、harness engineering の重要性は時間とともに低下する可能性があります。
しかし、現時点の実務の観点からは、最強のモデルであっても依然として外部ツールと、綿密に設計された調整ロジックに強く依存しています。Harness engineering は、見通せる未来においても、AI 製品の差別化のための中核となる戦場であり続けるでしょう。
AI 製品開発から得られる示唆
Pachaar の枠組みは、AI 製品を評価し、報じるための、より精確な分析視点を提供します。「誰がどのモデルを使ったか」を比べるだけでなく、製品の調整アーキテクチャ、ツール・エコシステム、記憶メカニズムなど、harness 層に関わるエンジニアリング上の意思決定を深掘りすべきだ、ということです。AI 製品を構築している台湾の開発チームにとって、これは、底層モデルを選定した後にこそ、真の競争が始まる——harness のエンジニアリング品質こそが、製品の成否を左右する鍵である、という意味になります。
この記事 Agent Harness がカギ:同じ AI モデルでも、異なる製品で表現がこれほどまでにかけ離れるのはなぜか。最初に登場:鏈新聞 ABMedia。