AI21 Maestro: 優化真實世界代理程式的準確度、成本與延遲

代理程式優化的權衡

優化 AI 代理程式通常涉及一個「惡性循環」，其中準確度、成本與延遲處於持續的緊張關係中。改進其中一項通常會導致其他項目的下降。傳統上，開發者依賴硬編碼的啟發式方法來決定使用哪些模型、工具和運算規模擴展策略，這導致了這三個維度上的效率流失。

為了提高代理程式的效能，優化通常分為兩個主要類別：配置與擴展。

配置涉及為代理程式的框架選擇合適的組件。這包括：

擴展允許開發者透過在執行時增加分配給任務的運算量來實現「以更多換取更多」。

垂直擴展專注於增加推理深度。這包括更長的推理鏈、增加 ReAct loop 中的循環次數，或實施評論-修復循環 (critique-repair loops)，其中一個 LLM 判斷輸出並由另一個進行修復。

水平擴展透過 best-of-n sampling 等技術利用 LLMs 的機率性質。藉由執行多個並行樣本並使用 LLM-as-a-judge 或確定性函數（例如執行程式碼測試）來對結果進行排名，代理程式可以實現顯著更高的準確度。

例如，在 BrowseComp Plus 基準測試中，使用效能較低的 Minimax 等模型搭配 8-16 個樣本，可以達到與僅執行一次的高階模型（如 GPT-5）相當的尖端準確度，同時由於並行執行，可能提供更好的延遲。

藉由將不同的配置（模型與工具）對應到成本/延遲與準確度，開發者可以識別出 Pareto 前沿 (Pareto frontier)——即提供最佳性價比（「最划算的選擇」）的配置集合。

使用多樣化模型組合的 集成方法 (ensemble approach) 能進一步推動此前沿。由於不同的模型通常解決不同子集的任務，將它們結合起來可以讓代理程式實現更高的整體準確度，同時透過在簡單任務中使用較小、較便宜的模型來降低成本與延遲。

手動優化成本高昂、效率低下且不具備前瞻性；模型定價的變動或新模型的發佈會使數月的手動調優變得過時。AI21 Maestro 透過一個兩部分組成的系統來實現此過程的自動化：

Maestro 效率地對動作空間（模型、代理程式、工具）進行採樣，以尋找最佳組合。接著，它會訓練一個 action model，其任務是在給定任務的情況下，預測特定動作的準確度、成本與延遲。

在推論時，action model 會被接入一個具備預算感知的執行環境。它利用預測結果來動態編排執行路徑。Maestro 不再使用固定的框架，而是可以執行「非直覺」的序列——例如，在第一階段執行五種不同的模型，然後根據結果與剩餘預算來決定是否進入第二波執行。

Maestro 已被應用於多個基準測試與具挑戰性的任務：

這實現了 anytime fashion generation，即代理程式根據目前的延遲或預算限制，提供最佳的候選結果。如果任務簡單，它會提早結束；如果任務複雜，它會投入更多運算量。