AI21 Maestro: 優化真實世界代理程式的準確度、成本與延遲

AI21 Maestro: 優化真實世界代理程式的準確度、成本與延遲

代理程式優化的權衡

優化 AI 代理程式通常涉及一個「惡性循環」,其中準確度、成本與延遲處於持續的緊張關係中。改進其中一項通常會導致其他項目的下降。傳統上,開發者依賴硬編碼的啟發式方法來決定使用哪些模型、工具和運算規模擴展策略,這導致了這三個維度上的效率流失。

代理程式效能策略

為了提高代理程式的效能,優化通常分為兩個主要類別:配置與擴展。

配置優化

配置涉及為代理程式的框架選擇合適的組件。這包括:

  • 模型選擇: 測試各種 LLMs 以確定哪一個在特定任務中表現最佳。
  • 提示工程 (Prompt Engineering): 手動調整提示詞或使用自動提示詞優化工具,例如 DSPy 或 GEAP。
  • 工具整合: 選擇並優化提供給代理程式的工具組合,因為過多的工具可能會降低效能,而過少的工具可能導致代理程式無法解決任務。
  • 護欄 (Guardrails): 在執行過程中實施系統化的流程與安全邊界。

推論時運算規模擴展

擴展允許開發者透過在執行時增加分配給任務的運算量來實現「以更多換取更多」。

垂直擴展

垂直擴展專注於增加推理深度。這包括更長的推理鏈、增加 ReAct loop 中的循環次數,或實施評論-修復循環 (critique-repair loops),其中一個 LLM 判斷輸出並由另一個進行修復。

水平擴展

水平擴展透過 best-of-n sampling 等技術利用 LLMs 的機率性質。藉由執行多個並行樣本並使用 LLM-as-a-judge 或確定性函數(例如執行程式碼測試)來對結果進行排名,代理程式可以實現顯著更高的準確度。

例如,在 BrowseComp Plus 基準測試中,使用效能較低的 Minimax 等模型搭配 8-16 個樣本,可以達到與僅執行一次的高階模型(如 GPT-5)相當的尖端準確度,同時由於並行執行,可能提供更好的延遲。

Pareto 前沿與集成方法

藉由將不同的配置(模型與工具)對應到成本/延遲與準確度,開發者可以識別出 Pareto 前沿 (Pareto frontier)——即提供最佳性價比(「最划算的選擇」)的配置集合。

使用多樣化模型組合的 集成方法 (ensemble approach) 能進一步推動此前沿。由於不同的模型通常解決不同子集的任務,將它們結合起來可以讓代理程式實現更高的整體準確度,同時透過在簡單任務中使用較小、較便宜的模型來降低成本與延遲。

AI21 Maestro: 自動化代理程式優化

手動優化成本高昂、效率低下且不具備前瞻性;模型定價的變動或新模型的發佈會使數月的手動調優變得過時。AI21 Maestro 透過一個兩部分組成的系統來實現此過程的自動化:

1. 離線構建時優化

Maestro 效率地對動作空間(模型、代理程式、工具)進行採樣,以尋找最佳組合。接著,它會訓練一個 action model,其任務是在給定任務的情況下,預測特定動作的準確度、成本與延遲。

2. 預算感知型執行時編排

在推論時,action model 會被接入一個具備預算感知的執行環境。它利用預測結果來動態編排執行路徑。Maestro 不再使用固定的框架,而是可以執行「非直覺」的序列——例如,在第一階段執行五種不同的模型,然後根據結果與剩餘預算來決定是否進入第二波執行。

應用與結果

Maestro 已被應用於多個基準測試與具挑戰性的任務:

  • BrowseComp Plus: 透過優化水平擴展與集成策略,達到了尖端水準的結果。
  • Deep Research Bench: 利用垂直擴展(修復循環)與 action model 來決定何時進行下一輪修復會是有益的,從以避免遞減效益。

這實現了 anytime fashion generation,即代理程式根據目前的延遲或預算限制,提供最佳的候選結果。如果任務簡單,它會提早結束;如果任務複雜,它會投入更多運算量。

Maestro 方法的核心優勢

  • 自動化: 消除了手動微調與昂貴的部署成本。

  • 高效: 僅對動作空間的相關部分進行採樣。

  • 可觀察性: 提供視覺化工具來展示成本、成本、延遲與準確度之間的權衡,讓開發者可以選擇其運作點。

  • 具前瞻性: 當新模型發佈時,系統只需要學習該特定模型的配置,而不需要重新訓練整個路由或蒸餾一個新模型。

Sources