AI21 Maestro: 优化真实世界智能体中的准确率、成本和延迟

智能体优化权衡

优化 AI 智能体通常涉及一个“恶性循环”，即准确率、成本和延迟之间存在持续的紧张关系。提高其中一项往往会导致其他两项的下降。传统上，开发者依赖硬编码的启发式方法来决定使用哪些模型、工具和计算扩展策略，这导致了这三个维度的效率流失。

为了提高智能体性能，优化通常分为两个主要类别：配置和扩展。

配置涉及为智能体的框架（harness）选择合适的组件。这包括：

扩展允许开发者通过在运行时增加分配给任务的计算量来实现“以多换多”。

纵向扩展侧重于增加推理深度。这包括更长的推理链、增加 ReAct 循环中的循环次数，或实施“批判-修复”循环（critique-repair loops），即由一个 LLM 判断输出并由另一个 LLM 进行修复。

横向扩展通过 best-of-n sampling 等技术利用 LLM 的概率特性。通过运行多个并行样本并使用 LLM-as-a-judge 或确定性函数（例如运行代码测试）来对结果进行排名，智能体可以实现显著更高的准确率。

例如，在 BrowseComp Plus 基准测试中，使用性能较低的模型（如 Minimax）进行 8-16 次采样，其准确率可以媲美仅运行一次的高端模型（如 GPT-5），同时由于并行执行，可能提供更好的延迟。

通过将不同的配置（模型和工具）与成本/延迟和准确率进行对比绘图，开发者可以可以识别出 帕累托前沿（Pareto frontier）——即提供最佳性价比（“best bang for the buck”）的配置集合。

使用多样化模型组合的 集成方法（ensemble approach） 进一步推向了这一前沿。由于不同的模型通常解决不同子集的任务，将它们结合起来可以让智能体在实现更高整体准确率的同时，通过利用更小、更便宜的模型处理简单任务来降低成本和延迟。

手动优化成本高昂、效率低下且不具备前瞻性；模型定价的变化或新模型的发布可能会使数月的手动调优变得过时。AI21 Maestro 通过一个由两部分组成的系统实现了这一过程的自动化：

Maestro 对动作空间（模型、智能体、工具）进行高效采样，以找到最优组合。然后，它会训练一个 action model，其任务是在给定任务的情况下预测特定动作的准确率、成本和延迟。

在推理时，action model 被接入一个具有预算感知能力的运行时环境。它使用预测结果来动态编排执行路径。Maestro 不再使用固定的框架，而是可以执行一种“非直观”的序列——例如，在第一阶段运行五个不同的模型，然后根据结果和剩余预算决定是否进入第二波。

Maestro 已应用于多个基准测试和具有挑战性的任务：

BrowseComp Plus： 通过优化横向扩展和集成策略，实现了最先进（state-of-the-art）的结果。
Deep Research Bench： 利用纵向扩展（修复循环）和 action model 来确定何时进行下一轮修复循环会是有益的，从而避免收益递减。

这实现了 anytime fashion generation，即智能体根据当前的延迟或预算约束提供最佳可能的候选结果。如果任务简单，它会提前停止；如果任务复杂，则投入更多计算量。