AI21 Maestro: 実世界のエージェントにおける精度、コスト、およびレイテンシの最適化

AI21 Maestro: 実世界のエージェントにおける精度、コスト、およびレイテンシの最適化

エージェント最適化のトレードオフ

AIエージェントの最適化は、通常、精度、コスト、およびレイテンシが常に緊張関係にある「悪循環」を伴います。一つの要素を改善しようとすると、他の要素が低下することがよくあります。従来、開発者はどのモデル、ツール、および計算スケーリング戦略を使用するかを決定するために、ハードコードされたヒューリスティックに頼ってきましたが、これはこれら3つの次元における効率性の漏洩につながります。

エージェントのパフォーマンス向上のための戦略

エージェントのパフォーマンスを向上させるためには、最適化は一般的に「設定」と「スケーリング」の2つの主要なカテゴリに分類されます。

設定の最適化

設定には、エージェントのハーネス(枠組み)に対する適切なコンポーネントの選択が含まれます。これには以下が含まれます:

  • Model Selection: さまざまなLLMをテストして、特定のタスクに対してどれが最も高いパフォーマンスを発揮するかを決定します。
  • Prompt Engineering: プロンプトを手動で微調整するか、DSPyやGEAPのような自動プロンプト最適化ツールを使用します。
  • Tool Integration: エージェントに提供されるツールの組み合わせを選択し、最適化します。ツールが多すぎるとパフォーマンスが低下し、少なすぎるとエージェントがタスクを解決できなくなる可能性があります。
  • Guardrails: 実行プロセスを囲む体系的なフローと安全境界を実装します。

推論時の計算スケーリング

スケーリングにより、開発者は実行時にタスクに割り当てられる計算リソースを増やすことで、「より多くを得るために、より多くを使う」ことが可能になります。

垂直スケーリング

垂直スケーリングは、推論の深さを増やすことに焦点を当てます。これには、より長い推論チェーン、ReActループ内のループ回数の増加、または、一つのLLMが結果を判断し、別のLLMがそれを修正する「critique-repair」ループの実装が含まれます。

水平スケーリング

水平スケーリングは、best-of-n samplingのような手法を通じて、LLMの確率的な性質を利用します。複数の並列サンプルを実行し、LLM-as-a-judgeまたは決定論的な関数(例:コードテストの実行)を使用して結果をランク付けすることで、エージェントは大幅に高い精度を実現できます。

例えば、BrowseComp Plusベンチマークにおいて、Minimaxのような低パフォーマンスのモデルを8-16サンプル使用することで、GPT-5のようなハイエンドモデルを1回だけ実行した場合の最先端の精度に匹敵することができ、並列実行によりレイテンシが改善される可能性もあります。

パレートの境界(Pareto Frontier)とアンサンブル手法

異なる設定(モデルとツール)を、コスト/レイテンシおよび精度に対してプロットすることで、開発者はパレートの境界(Pareto frontier)、つまり、コストパフォーマンスが最も高い(「最も効率的な」)設定の集合を特定できます。

アンサンブル手法(多様なモデルのポートフォリオを使用すること)は、この境界をさらに押し広げます。異なるモデルはしばしば異なるタスクのサブセットを解決できるため、それらを組み合わせることで、エージェントは、より単純なタスクには小さく安価なモデルを使用することで、コストとレイテンシを抑えつつ、全体的な精度を向上させることができます。

AI21 Maestro: 自動エージェント最適化

手動の最適化はコストがかかり、非効率的であり、将来の拡張性もありません。モデルの価格設定の変更や新しいモデルのリリースは、数ヶ月にわたる手動のチューニングを無効にする可能性があります。AI21 Maestroは、以下の2部構成のシステムを通じて、このプロセスを自動化します:

1. オフライン・ビルド時最適化

Maestroは、アクションスペース(モデル、エージェント、ツール)を効率的にサンプリングして、最適なポートフォリオを見つけます。次に、タスクが与えられたときに、特定のアクションの精度、コスト、およびレイテンシを予測するaction modelをトレーニングします。

2. 予算を考慮した実行時オーケストレーション

推論時、action modelは予算を考慮した実行時環境に組み込まれます。予測を使用して、実行パスを動的にオーケストレーションします。固定のハーネスではなく、Maestroは「奇妙な」非直感的なシーケンスを実行できます。例えば、第一段階で5つの異なるモデルを実行し、その結果と残りの予算に基づいて、第二段階に進むかどうかを決定します。

アプリケーションと結果

Maestroは、いくつかのベンチマークや困難なタスクに適用されています:

  • BrowseComp Plus: 水平スケーリングとアンサンブル戦略を最適化することで、最先端の結果を達成しました。
  • Deep Research Bench: 垂直スケーリング(repair loops)とaction modelを使用して、いつ次の修理のサイクルが有益であるかを判断し、収益逓減を回避しました。

これにより、anytime fashion generation(いつでも生成が可能)が可能になります。エージェントは、現在のレイテンシや予算の制約に基づいて、可能な限り最善の候補を提示します。タスクが単純であれば、早期に終了し、複雑であれば、より多くの計算リソースを投資します。

Maestroアプローチの主な利点

  • Automatic: 手動の微調整や高価な展開が不要になります。

  • Efficient: アクションスペースの関連する部分のみをサンプリングします。

  • Observable: コスト、レイテンシ、および精度のトレードオフを可視化するビジュアライザーを提供し、開発者が動作点を選択できるようにします。

  • Future-Proof: 新しいモデルがリリースされたとき、システムは、ルーター全体を再トレーニングしたり、新しいモデルを蒸留(distillation)するかではなく、その特定のモデルの設定のみを学習する必要があります。

Sources