AI Dev 26 x SF:多模型流水线实现更好且更便宜的 AI 结果

AI Dev 26 x SF:多模型流水线实现更好且更便宜的 AI 结果

TL;DR:系统设计胜于模型选择

为了以更低的成本获得更高质量的 AI 生成代码,开发者应当从使用单一昂贵模型完成所有任务,转向构建多模型流水线。通过将工作流拆分为规划、实现和审查等不同阶段,并将每个阶段路由到最适合该任务的模型,组织可以在保持或提升输出质量的同时,将 API 成本降低最高达 60%。

向 AI 系统工程的转变

软件工程正从编写代码演进为构建能够编写代码的系统。这是一种抽象层次的提升,类似于历史上从过程式编程向面向对象编程的转变,或是微服务的采用。这个新范式要求具备强大的系统设计能力,以协调 AI 代理的交互和任务执行方式。

对于许多企业来说,仅依赖前沿模型(如 Claude Opus)完成所有编码任务的成本是不可持续的。ZenCode 的内部指标显示,工程师在日常工作中活跃使用高端模型的情况下,API 调用费用大约每月会消耗 2,000 美元。转向基于系统的方式可以让团队在不产生高额费用的前提下保持生产力。

拆解编码流水线

ZenCode 的研究表明,规划 → 实现 的两步流程是实现可靠性和人工监督的关键。虽然某些规格驱动开发(SDD)流程过度指定,可能限制 AI 创造力或浪费 token,但在动手之前先进行规划的核心理念仍然至关重要,因为人类审阅规格要比审阅跨数十个文件的大规模重构快得多。

1. 规划阶段

规划需要最高层次的推理能力。在 ZenCode 的实验中,最佳可用模型(如 Claude Opus)在此阶段表现最为出色。使用高质量的规划器可以为后续代理提供坚实的指导,避免在错误的实现路径上浪费 token 和时间。

2. 实现阶段

与直觉相反,最昂贵的模型并不一定是实现阶段的最佳选择。ZenCode 在 SweetBench Pro 基准的最难题目上,使用固定的 Opus 规划器,对比了多种模型(包括 Opus、Codex、GLM 5、Gemini Flash)的表现。结果显示,更便宜的模型往往能取得比最贵模型更好的结果

这种现象归因于两个因素:

  • “笨代码”已被解决:对提供的计划进行基本实现的能力已经成为多数模型的共性。
  • 模型多样性:实现阶段使用与规划阶段不同的模型(例如用 Opus 规划、用 Gemini 实现)可以带来“不同的火花”或新视角,从而提升最终输出。

ZenCode 发现,使用更便宜的实现模型可以将实现成本降低 80%,并将整体的计划‑实现循环成本降低 60%。

优化审查流程

AI 驱动的审查旨在处理常规且枯燥的错误,将简单 bug 的检测提前到流水线的“左侧”,从而让人工审查者专注于最棘手的架构问题。

审查阶段模型多样性的重要性

该流水线的核心哲学是:模型不应审查自己的工作。为避免引入相同的偏见,ZenCode 建议在审查阶段使用与实现阶段不同的模型。

在将多模型审查流水线与 Claude Code Review Bot 进行对比的实验中,ZenCode 发现其混合模型方案(如 Opus、Cortex、Gemini)在精确率和召回率上均优于单模型高端机器人,同时成本显著更低——约每个 PR 0.25 美元,而单模型高端机器人通常在 12 至 20 美元之间。

验证与确定性实践

虽然 LLM 可以编排验证工作,但最可靠的验证仍来自确定性的软件工程实践。ZenCode 强调尽可能将验证工作转向传统工具,包括:

  • 端到端测试
  • 跟踪与可观测性
  • Linter

多模型策略汇总

阶段 推荐模型类型 目标
规划 前沿/最佳模型 高推理能力、坚实指导
实现 高效/更便宜模型 执行计划、模型多样性
审查 多样化模型(不同于实现模型) 降低偏见、提升精确率与召回率
验证 确定性工具 真实可靠的基准

SUMMARY: Andrew Filev(ZenCode)阐述了通过将 AI 编码任务拆解为多模型流水线——具体划分为规划、实现和审查三个阶段——能够利用不同 LLM 的优势,降低成本并提升质量。

TITLE: AI Dev 26 x SF:多模型流水线实现更好且更便宜的 AI 结果

Sources