Ara Khan: 評価は壊れているが、とにかく使うべき

コアな対立: 客観的指標 vs. 感覚

AI 開発では、評価（evals）に関して 客観的指標派 と 感覚/雰囲気派 の二つの誤った陣営に分かれがちです。前者はベンチマークスコア（ELO や SweetBench など）を文字通り受け取り、後者は数字を完全に無視して主観的な感覚に頼ります。

どちらのアプローチも不十分です。客観的ベンチマークは研究所が実際の有用性を向上させずに高スコアを得るためにゲーム化できる一方で、"雰囲気" のみを信頼すると体系的な改善が阻まれます。効果的な道はその中間にあり、評価を絶対的な真実としてではなく、反復的開発のための重要なヒューリスティックとして扱うことです。

外部評価を解釈するためのヒューリスティック

モデルラボや他社が提供するベンチマークを評価する際、開発者はマーケティング的な数字に惑わされないように、以下の三つの主要なヒューリスティックを適用すべきです。

1. ラボの評価は近似値として扱う

モデルラボ（例: GPT や Claude のリリース）からの数値を "神の言葉" として扱わないこと。概ね妥当な近似値ではあるものの、優位性の決定的な証拠としてではなく、慎重に利用すべきです。

2. 安定性を優先し、早期採用は控える

急速に変化する AI 業界では、"最良" のモデルが数か月ごとに入れ替わります。リリース直後に最先端モデルへ切り替えようとすると、過剰な認知リソースを消費します。推奨されるアプローチは、数週間様子を見ることで、安定した後に新しいモデルを本番ワークフローに組み込むことです。

3. 問題特化型ベンチマークを探す

汎用ベンチマークは実際の有用性を反映しにくいことが多いです。例えば、SWE‑bench はかつてコーディングエージェントの標準ベンチマークでしたが、最終的に "飽和" し、モデルが非常に高得点を取るために品質の違いが区別できなくなりました。開発者は自分の問題領域（例: ショッピング、インフラ、特定のコーディングタスク）に密接に合致した評価を探すべきです。

コーディングエージェント向けエージェント的評価の実装

エージェントの評価は、単一ターンの LLM 応答の評価とは根本的に異なります。エージェントは複数ターンを取り、さまざまなツールを使用し、異なる経路をたどるため、回答空間は実質的に無限です。

実世界タスクへのシフト

初期の評価は、フィボナッチ数列の実装といった些細な学術的問題に焦点を当てていました。これらはプロフェッショナルなソフトウェアエンジニアリングに結びつきません。この課題を解決するため、Cline チームは Terminal Bench（Stanford ALOT Institute が開発）を採用しました。これはデータベース問題、レースコンディション、フロントエンドバグなど、89 の実世界ソフトウェアエンジニアリングタスクで構成されています。

エージェント的評価プロセス

決定論的テストとは異なり、エージェント的評価はエージェントに長時間（時には 30〜45 分）実行させ、ウェブ検索、ライブラリのインストール、ファイル編集などを行わせます。成功は 決定論的ユニットテスト によって測定され、最終出力が実行可能で必要なテストをすべてパスするかどうかで判断します。

追跡すべき主要指標

品質とコストのバランスを取るため、開発者は以下を追跡すべきです:

ターン数: エージェントが取るイテレーション回数。
ツール呼び出し数: 呼び出されたツールの回数。
トークン使用量: 実行全体のコスト。
実行時間: 実行全体の壁時計時間。

堅牢な評価インフラの構築

評価を効果的に実行し、タスク間の干渉を防ぐためには、分離が必須です。

コンテナ化: 各評価タスクは独自の依存関係と環境を持つ分離コンテナ内で実行すべきです。これにより、あるタスクが別タスクの環境を汚染することを防げます。
並列化: 評価を順次実行すると数時間かかります。Modal のようなインフラを利用すれば、コンテナ化された環境を並列に走らせ、フィードバックループ時間を大幅に短縮できます。

反復的改善ループ

評価は開発者が哲学的な推測からエンジニアリングへと移行する手段です。"失敗のポートフォリオ配分" を分析することで、エラーを大まかなバケット（例: "ファイル読み取り失敗"、"推論エラー"、"インストールループ"）に分類できます。

改善の三つのゾーン

ゾーン 1: 明らかな欠陥。 read_file ツールの破損やチェックポイント失敗など、根本的なブレークを修正します。これによりエージェントが機能し始めます。
ゾーン 2: ヒルクライミング。 主な最適化領域です。開発者はプロンプトエンジニアリングを洗練し、ツール定義を調整し、リトライロジックを最適化して、エージェントの問題解決アプローチを向上させます。
ゾーン 3: デンジャーゾーン。 過学習のリスクです。ベンチマークスコアだけを上げるための特定のハックを追加し、汎用性能を低下させることは避けなければなりません。

三者アラインメント

エージェントの成功的なパフォーマンスには、以下三つの要素の整合が必要です:

モデル: 基盤となる LLM の能力。
ハーネス: エージェントの骨組みとツール実装。
問題: 実際に解くタスク。

優れたモデルでもハーネスが不十分なら失敗します。反復的評価は、失敗がモデルの知能によるものか、エージェントの骨組みの欠陥によるものかを特定するのに役立ちます。

要約: Ara Khan は、AI エージェント開発者が "雰囲気" だけに頼らず、構造化された評価を活用すべき理由を説明しています。評価は欠点を抱えているものの、エージェントの性能とツールの信頼性を反復的に向上させるための手段となります。

タイトル: Ara Khan: 評価は壊れているが、とにかく使うべき

Ara Khan: 評価は壊れているが、とにかく使うべき

Ara Khan: 評価は壊れているが、とにかく使うべき

コアな対立: 客観的指標 vs. 感覚

外部評価を解釈するためのヒューリスティック

1. ラボの評価は近似値として扱う

2. 安定性を優先し、早期採用は控える

3. 問題特化型ベンチマークを探す

コーディングエージェント向けエージェント的評価の実装

実世界タスクへのシフト

エージェント的評価プロセス

追跡すべき主要指標

堅牢な評価インフラの構築

反復的改善ループ

改善の三つのゾーン

三者アラインメント

Sources