AI Dev 26 x SF:多模型管線打造更好更便宜的 AI 成果

AI Dev 26 x SF:多模型管線打造更好更便宜的 AI 成果

TL;DR:系統設計勝於模型選擇

為了以更低成本產出更高品質的 AI 生成程式碼,開發者應該從使用單一昂貴模型處理所有任務,轉向建構多模型管線。透過將工作流程拆解為規劃、實作與審查三個獨立階段,並將每個階段指派給最適合該任務的模型,組織可以在維持或提升輸出品質的同時,將 API 成本降低最高 60%。

向 AI 系統工程的轉變

軟體工程正從寫程式碼演變為建構能寫程式碼的系統。這是一種抽象層級的提升,類似於從程序式程式設計轉向物件導向,或是採用微服務的歷史性變革。這個新範式需要強大的系統設計能力,以協調 AI 代理人的互動與任務執行方式。

對許多企業而言,僅依賴前沿模型(如 Claude Opus)處理所有程式開發任務的成本是難以持續的。ZenCode 的內部指標顯示,工程師在日常工作中活躍使用高階模型,API 呼叫費用大約每月 2,000 美元。採用系統化方法可讓團隊在不產生過高成本的前提下,維持生產力。

拆解程式開發管線

ZenCode 的研究指出,兩步驟流程——先規劃再實作——是可靠性與人工監督的關鍵。雖然某些規格驅動開發(SDD)流程過度指定,會限制 AI 的創意或浪費 token,但「先規劃後執行」的核心概念仍然重要,因為人類審閱規格比審閱跨數十個檔案的大規模重構要快得多。

1. 規劃階段

規劃需要最高層次的推理能力。在 ZenCode 的實驗中,最佳可得模型(例如 Claude Opus)在此階段最為有效。使用高品質的規劃模型可確保下游代理人得到穩固指引,避免在錯誤的實作路徑上浪費 token 與時間。

2. 實作階段

直覺上認為最貴的模型一定是最佳實作選擇,其實並非如此。ZenCode 在 SweetBench Pro 基準測試中,以固定的 Opus 規劃模型,測試了多種模型(包括 Opus、Codex、GLM 5、Gemini Flash)在最難題目上的表現。結果顯示,較便宜的模型往往能產出比最貴模型更好的結果。

此現象歸因於兩個因素:

  • 「笨碼」已被解決:對提供的規劃進行基本實作的能力已成為多數模型的共通功能。
  • 模型多樣性:實作時使用與規劃不同的模型(例如以 Opus 規劃、以 Gemini 實作)可帶來「不同的火花」或新視角,提升最終成果。

ZenCode 發現,使用較便宜的實作模型可將實作成本降低 80%,整體規劃+實作循環成本降低 60%。

優化審查流程

AI 驅動的審查旨在處理例行且乏味的錯誤,將簡單 bug 的偵測「左移」到流程前端,讓人工審查者能專注於最具挑戰性的架構問題。

審查階段模型多樣性的重要性

此管線的核心哲學是:模型不應審查自己的產出。為避免引入相同偏見,ZenCode 建議在審查階段使用與實作階段不同的模型。

在將多模型審查管線與 Claude Code Review Bot 進行比較的實驗中,ZenCode 發現其混合模型(如 Opus、Cortex、Gemini)的方案在精確度與召回率上皆優於單一高階模型,且成本顯著降低——每個 PR 約 0.25 美元,遠低於單模型高階機器人每次 12 至 20 美元的費用。

驗證與確定性實踐

雖然大型語言模型可以協調驗證工作,但最可靠的驗證仍來自確定性的軟體工程實踐。ZenCode 強調將驗證盡可能移向傳統工具,包括:

  • 端對端測試
  • 追蹤與可觀測性
  • Linter

多模型策略摘要

階段 推薦模型類型 目標
規劃 前沿/最佳模型 高推理、穩固指引
實作 高效/較便宜模型 執行規劃、模型多樣性
審查 多樣模型(與實作模型不同) 降低偏見、提升精確度與召回率
驗證 確定性工具 真實基礎與可靠性

摘要: Andrew Filev(ZenCode)說明,將 AI 程式開發任務拆解為多模型管線——分別負責規劃、實作與審查——可透過發揮不同 LLM 的優勢,降低成本並提升品質。

標題: AI Dev 26 x SF:多模型管線打造更好更便宜的 AI 成果

Sources