AI21 Maestro: 优化真实世界智能体中的准确率、成本和延迟

AI21 Maestro: 优化真实世界智能体中的准确率、成本和延迟

智能体优化权衡

优化 AI 智能体通常涉及一个“恶性循环”,即准确率、成本和延迟之间存在持续的紧张关系。提高其中一项往往会导致其他两项的下降。传统上,开发者依赖硬编码的启发式方法来决定使用哪些模型、工具和计算扩展策略,这导致了这三个维度的效率流失。

智能体性能策略

为了提高智能体性能,优化通常分为两个主要类别:配置和扩展。

配置优化

配置涉及为智能体的框架(harness)选择合适的组件。这包括:

  • 模型选择: 测试各种 LLM 以确定哪种在特定任务中表现最好。
  • 提示词工程: 手动调整提示词或使用自动提示词优化工具,如 DSPy 或 GEAP。
  • 工具集成: 选择并优化提供给智能体的工具组合,因为工具过多可能会降低性能,而工具过少则可能导致智能体无法解决任务。
  • 护栏(Guardrails): 在执行过程中实施系统化的流程和安全边界。

推理时计算扩展

扩展允许开发者通过在运行时增加分配给任务的计算量来实现“以多换多”。

纵向扩展

纵向扩展侧重于增加推理深度。这包括更长的推理链、增加 ReAct 循环中的循环次数,或实施“批判-修复”循环(critique-repair loops),即由一个 LLM 判断输出并由另一个 LLM 进行修复。

横向扩展

横向扩展通过 best-of-n sampling 等技术利用 LLM 的概率特性。通过运行多个并行样本并使用 LLM-as-a-judge 或确定性函数(例如运行代码测试)来对结果进行排名,智能体可以实现显著更高的准确率。

例如,在 BrowseComp Plus 基准测试中,使用性能较低的模型(如 Minimax)进行 8-16 次采样,其准确率可以媲美仅运行一次的高端模型(如 GPT-5),同时由于并行执行,可能提供更好的延迟。

帕累托前沿与集成方法

通过将不同的配置(模型和工具)与成本/延迟和准确率进行对比绘图,开发者可以可以识别出 帕累托前沿(Pareto frontier)——即提供最佳性价比(“best bang for the buck”)的配置集合。

使用多样化模型组合的 集成方法(ensemble approach) 进一步推向了这一前沿。由于不同的模型通常解决不同子集的任务,将它们结合起来可以让智能体在实现更高整体准确率的同时,通过利用更小、更便宜的模型处理简单任务来降低成本和延迟。

AI21 Maestro: 自动智能体优化

手动优化成本高昂、效率低下且不具备前瞻性;模型定价的变化或新模型的发布可能会使数月的手动调优变得过时。AI21 Maestro 通过一个由两部分组成的系统实现了这一过程的自动化:

1. 离线构建时优化

Maestro 对动作空间(模型、智能体、工具)进行高效采样,以找到最优组合。然后,它会训练一个 action model,其任务是在给定任务的情况下预测特定动作的准确率、成本和延迟。

2. 预算感知型运行时编排

在推理时,action model 被接入一个具有预算感知能力的运行时环境。它使用预测结果来动态编排执行路径。Maestro 不再使用固定的框架,而是可以执行一种“非直观”的序列——例如,在第一阶段运行五个不同的模型,然后根据结果和剩余预算决定是否进入第二波。

应用与结果

Maestro 已应用于多个基准测试和具有挑战性的任务:

  • BrowseComp Plus: 通过优化横向扩展和集成策略,实现了最先进(state-of-the-art)的结果。
  • Deep Research Bench: 利用纵向扩展(修复循环)和 action model 来确定何时进行下一轮修复循环会是有益的,从而避免收益递减。

这实现了 anytime fashion generation,即智能体根据当前的延迟或预算约束提供最佳可能的候选结果。如果任务简单,它会提前停止;如果任务复杂,则投入更多计算量。

Maestro 方法的核心优势

  • 自动: 无需手动调整和昂贵的部署。
  • 高效: 仅对动作空间的相关部分进行采样。
  • 可观测: 提供可视化工具来展示成本、延迟和准确率之间的权衡,允许开发者选择其运行点。
  • 具备前瞻性: 当新模型发布时,系统只需学习特定新模型的配置,而无需重新训练整个路由或蒸馏新模型。

Sources