Ornith-1.0: 用於代理編碼的自我改進開源模型

Ornith-1.0: 用於代理編碼的自我改進開源模型

Ornith-1.0 是一系列專為代理編碼(agentic coding)優化的自我改進開源模型。透過利用一種能同時優化解決方案展開(solution rollouts)與驅動它們的腳手架(scaffolds)的強化學習(RL)框架,Ornith-1.0 發現了更高效的搜索軌跡,以生成更高品質的程式碼解決方案。

模型變體與架構

Ornith-1.0 提供三種主要尺寸,是在 Gemma 4 和 Qwen 3.5 的基礎上進行後訓練(post-trained)而成的。所有模型都支援 256K (262,144-token) 上下文窗口,並提供與 OpenAI 相容的介面。

  • 9B-Dense: 專為單 GPU 服務與微調而設計。它可以容納於單張 80GB GPU 上。
  • 35B-MoE: 一種混合專家模型(Mixture-of-Experts),適合多 GPU 服務。
  • 397B-MoE: 用於高性能多 GPU 節點的大規模混合專家模型。

權重以多種格式提供,以適應不同的硬體,包括用於全精度的 bf16、用於在相容 GPU 上提高記憶體效率的 FP8,以及用於透過 llama.cpp 或 Ollama 進行本地推理的 GGUF

性能基準測試

在多個代理編碼基準測試中,Ornith-1.0 在同規模的開源模型中達到了尖端(state-of-the-art)性能。

高規模性能 (397B 模型)

397B MoE 模型可與頂級的專有模型和開源模型競爭。在 SWE-bench Verified 上,它獲得了 82.4 分,優於 Qwen3.5-397B (76.4) 和 DeepSeek-V4-Pro-1.6T (80.6)。它在 Terminal-Bench 2.1 上也展現了強大的結果,得分為 77.5 (Terminus-2) 和 78.2 (Claude Code)。

中規模性能 (35B 模型)

35B MoE 模型展現了較其基準模型的顯著增益。在 SWE-bench Verified 上,它獲得了 75.6 分,而 Qwen3.5-35B 為 70 分。它在 Terminal-Bench 2.1 (Terminus-2) 上也達到了 64.2 分,顯著高於 Qwen3.5-35B 的 41.4 分。

小規模性能 (9B 模型)

9B Dense 模型在特定任務上優於幾個較大的基準模型。例如,在 Terminal-Bench 2.1 (Terminus-2) 上,它獲得了 43.1 分,擊敗了較大的 Gemma4-31B (42.1) 和 Qwen3.5-9B (21.3)。

技術實現與服務

Ornith-1.0 是一個推理模型;它會在提供最終答案之前生成一個包含思維鏈(chain-of-thought)軌跡的 <think> 區塊。

部署運行時

要服務 Ornith-1.0,需要以下最低運行時版本:

  • Transformers: $\ge$ 5.8.1
  • vLLM: $\ge$ 0.19.1
  • SGLang: $\ge$ 0.5.9

與代理框架的集成

由於模型暴露了與 OpenAI 相容的端點,並支援工具調用(tool-calling),因此它們可以直接與多個代理框架集成:

  • OpenHands: 透過 LiteLLM 使用 openai/Ornith-1.0 前綴進行路由。
  • Hermes Agent & OpenClaw: 透過 OPENAI_BASE_URL 直接指向 Ornith 伺服器。
  • Coding CLIs: 為 OpenCode 等基於終端機的代理而優化。

社群反應與評論

雖然基準測試顯示了強大的結果,但來自 Hacker News 的社群群眾回饋指出,基準測試性能與實際應用價值之間存在分歧。

批判性觀點

一些用戶回報稱,該模型在非工具增強型對話中的性能表現不佳,並指出其具有幻覺傾向。一位用戶強調了基準測試成功與實際找尋錯誤(bug-finding)之間的差異:

"Poor performer here, only found the one bug that almost every model found, despite its performance on other benchmarks being excellent for its size."

其他評論者建議模型可能存在「基準測試過度優化」(benchmaxxed)的問題——即專門針對測試用的基準測試進行優化——並認為 9B 模型的 VRAM 需求(需容納於 80GB GPU 上)對於許多個人用戶來說仍然太高。

正面觀點

相反,一些用戶發現模型在處理編碼問題時的方法非常具有創意,並指出這是少數幾個基於 Qwen 的微調模型中,因其在編碼任務中的實際效用而被本地 LLM 社群廣泛接受的模型之一。

Sources