AI Dev 26 x SF：多模型管線打造更好更便宜的 AI 成果

TL;DR：系統設計勝於模型選擇

為了以更低成本產出更高品質的 AI 生成程式碼，開發者應該從使用單一昂貴模型處理所有任務，轉向建構多模型管線。透過將工作流程拆解為規劃、實作與審查三個獨立階段，並將每個階段指派給最適合該任務的模型，組織可以在維持或提升輸出品質的同時，將 API 成本降低最高 60%。

向 AI 系統工程的轉變

軟體工程正從寫程式碼演變為建構能寫程式碼的系統。這是一種抽象層級的提升，類似於從程序式程式設計轉向物件導向，或是採用微服務的歷史性變革。這個新範式需要強大的系統設計能力，以協調 AI 代理人的互動與任務執行方式。

對許多企業而言，僅依賴前沿模型（如 Claude Opus）處理所有程式開發任務的成本是難以持續的。ZenCode 的內部指標顯示，工程師在日常工作中活躍使用高階模型，API 呼叫費用大約每月 2,000 美元。採用系統化方法可讓團隊在不產生過高成本的前提下，維持生產力。

拆解程式開發管線

ZenCode 的研究指出，兩步驟流程——先規劃再實作——是可靠性與人工監督的關鍵。雖然某些規格驅動開發（SDD）流程過度指定，會限制 AI 的創意或浪費 token，但「先規劃後執行」的核心概念仍然重要，因為人類審閱規格比審閱跨數十個檔案的大規模重構要快得多。

1. 規劃階段

規劃需要最高層次的推理能力。在 ZenCode 的實驗中，最佳可得模型（例如 Claude Opus）在此階段最為有效。使用高品質的規劃模型可確保下游代理人得到穩固指引，避免在錯誤的實作路徑上浪費 token 與時間。

2. 實作階段

直覺上認為最貴的模型一定是最佳實作選擇，其實並非如此。ZenCode 在 SweetBench Pro 基準測試中，以固定的 Opus 規劃模型，測試了多種模型（包括 Opus、Codex、GLM 5、Gemini Flash）在最難題目上的表現。結果顯示，較便宜的模型往往能產出比最貴模型更好的結果。

此現象歸因於兩個因素：

「笨碼」已被解決：對提供的規劃進行基本實作的能力已成為多數模型的共通功能。
模型多樣性：實作時使用與規劃不同的模型（例如以 Opus 規劃、以 Gemini 實作）可帶來「不同的火花」或新視角，提升最終成果。

ZenCode 發現，使用較便宜的實作模型可將實作成本降低 80%，整體規劃＋實作循環成本降低 60%。

優化審查流程

AI 驅動的審查旨在處理例行且乏味的錯誤，將簡單 bug 的偵測「左移」到流程前端，讓人工審查者能專注於最具挑戰性的架構問題。

審查階段模型多樣性的重要性

此管線的核心哲學是：模型不應審查自己的產出。為避免引入相同偏見，ZenCode 建議在審查階段使用與實作階段不同的模型。

在將多模型審查管線與 Claude Code Review Bot 進行比較的實驗中，ZenCode 發現其混合模型（如 Opus、Cortex、Gemini）的方案在精確度與召回率上皆優於單一高階模型，且成本顯著降低——每個 PR 約 0.25 美元，遠低於單模型高階機器人每次 12 至 20 美元的費用。

驗證與確定性實踐

雖然大型語言模型可以協調驗證工作，但最可靠的驗證仍來自確定性的軟體工程實踐。ZenCode 強調將驗證盡可能移向傳統工具，包括：

端對端測試
追蹤與可觀測性
Linter

多模型策略摘要

階段	推薦模型類型	目標
規劃	前沿/最佳模型	高推理、穩固指引
實作	高效/較便宜模型	執行規劃、模型多樣性
審查	多樣模型（與實作模型不同）	降低偏見、提升精確度與召回率
驗證	確定性工具	真實基礎與可靠性

摘要： Andrew Filev（ZenCode）說明，將 AI 程式開發任務拆解為多模型管線——分別負責規劃、實作與審查——可透過發揮不同 LLM 的優勢，降低成本並提升品質。

標題： AI Dev 26 x SF：多模型管線打造更好更便宜的 AI 成果

AI Dev 26 x SF：多模型管線打造更好更便宜的 AI 成果

AI Dev 26 x SF：多模型管線打造更好更便宜的 AI 成果

TL;DR：系統設計勝於模型選擇

向 AI 系統工程的轉變

拆解程式開發管線

1. 規劃階段

2. 實作階段

優化審查流程

審查階段模型多樣性的重要性

驗證與確定性實踐

多模型策略摘要

Sources