Ornith-1.0: 用於代理編碼的自我改進開源模型

Ornith-1.0 是一系列專為代理編碼（agentic coding）優化的自我改進開源模型。透過利用一種能同時優化解決方案展開（solution rollouts）與驅動它們的腳手架（scaffolds）的強化學習（RL）框架，Ornith-1.0 發現了更高效的搜索軌跡，以生成更高品質的程式碼解決方案。

模型變體與架構

Ornith-1.0 提供三種主要尺寸，是在 Gemma 4 和 Qwen 3.5 的基礎上進行後訓練（post-trained）而成的。所有模型都支援 256K (262,144-token) 上下文窗口，並提供與 OpenAI 相容的介面。

9B-Dense: 專為單 GPU 服務與微調而設計。它可以容納於單張 80GB GPU 上。
35B-MoE: 一種混合專家模型（Mixture-of-Experts），適合多 GPU 服務。
397B-MoE: 用於高性能多 GPU 節點的大規模混合專家模型。

權重以多種格式提供，以適應不同的硬體，包括用於全精度的 bf16、用於在相容 GPU 上提高記憶體效率的 FP8，以及用於透過 llama.cpp 或 Ollama 進行本地推理的 GGUF。

性能基準測試

在多個代理編碼基準測試中，Ornith-1.0 在同規模的開源模型中達到了尖端（state-of-the-art）性能。

高規模性能 (397B 模型)

397B MoE 模型可與頂級的專有模型和開源模型競爭。在 SWE-bench Verified 上，它獲得了 82.4 分，優於 Qwen3.5-397B (76.4) 和 DeepSeek-V4-Pro-1.6T (80.6)。它在 Terminal-Bench 2.1 上也展現了強大的結果，得分為 77.5 (Terminus-2) 和 78.2 (Claude Code)。

中規模性能 (35B 模型)

35B MoE 模型展現了較其基準模型的顯著增益。在 SWE-bench Verified 上，它獲得了 75.6 分，而 Qwen3.5-35B 為 70 分。它在 Terminal-Bench 2.1 (Terminus-2) 上也達到了 64.2 分，顯著高於 Qwen3.5-35B 的 41.4 分。

小規模性能 (9B 模型)

9B Dense 模型在特定任務上優於幾個較大的基準模型。例如，在 Terminal-Bench 2.1 (Terminus-2) 上，它獲得了 43.1 分，擊敗了較大的 Gemma4-31B (42.1) 和 Qwen3.5-9B (21.3)。

技術實現與服務

Ornith-1.0 是一個推理模型；它會在提供最終答案之前生成一個包含思維鏈（chain-of-thought）軌跡的 <think> 區塊。

部署運行時

要服務 Ornith-1.0，需要以下最低運行時版本：

Transformers: $\ge$ 5.8.1
vLLM: $\ge$ 0.19.1
SGLang: $\ge$ 0.5.9

與代理框架的集成

由於模型暴露了與 OpenAI 相容的端點，並支援工具調用（tool-calling），因此它們可以直接與多個代理框架集成：

OpenHands: 透過 LiteLLM 使用 openai/Ornith-1.0 前綴進行路由。
Hermes Agent & OpenClaw: 透過 OPENAI_BASE_URL 直接指向 Ornith 伺服器。
Coding CLIs: 為 OpenCode 等基於終端機的代理而優化。

社群反應與評論

雖然基準測試顯示了強大的結果，但來自 Hacker News 的社群群眾回饋指出，基準測試性能與實際應用價值之間存在分歧。

批判性觀點

一些用戶回報稱，該模型在非工具增強型對話中的性能表現不佳，並指出其具有幻覺傾向。一位用戶強調了基準測試成功與實際找尋錯誤（bug-finding）之間的差異：

"Poor performer here, only found the one bug that almost every model found, despite its performance on other benchmarks being excellent for its size."

其他評論者建議模型可能存在「基準測試過度優化」（benchmaxxed）的問題——即專門針對測試用的基準測試進行優化——並認為 9B 模型的 VRAM 需求（需容納於 80GB GPU 上）對於許多個人用戶來說仍然太高。

正面觀點

相反，一些用戶發現模型在處理編碼問題時的方法非常具有創意，並指出這是少數幾個基於 Qwen 的微調模型中，因其在編碼任務中的實際效用而被本地 LLM 社群廣泛接受的模型之一。

Ornith-1.0: 用於代理編碼的自我改進開源模型

Ornith-1.0: 用於代理編碼的自我改進開源模型

模型變體與架構

性能基準測試

高規模性能 (397B 模型)

中規模性能 (35B 模型)

小規模性能 (9B 模型)

技術實現與服務

部署運行時

與代理框架的集成

社群反應與評論

批判性觀點

正面觀點

Sources