Ornith-1.0: 用于智能体编程的自我改进开源模型

Ornith-1.0 是一系列专门为智能体编程（agentic coding）优化的自我改进开源模型。通过利用一种强化学习（RL）框架，该框架能够共同优化解决方案的展开（rollouts）及其驱动程序（scaffolds），Ornith-1.0 能够发现更高效的搜索轨迹，从而生成更高质量的代码解决方案。

模型变体与架构

Ornith-1.0 提供三种主要规模，是在 Gemma 4 和 Qwen 3.5 的基础上进行后训练（post-trained）得到的。所有模型都支持 256K (262,144-token) 上下文窗口，并提供与 OpenAI 兼容的接口。

9B-Dense: 专为单 GPU 推理和微调设计。它可以适配在单个 80GB GPU 上。
35B-MoE: 混合专家模型（Mixture-of-Experts），适用于多 GPU 推理。
397B-MoE: 大规模混合专家模型，适用于高性能多 GPU 节点。

权重以多种格式提供，以适应不同的硬件，包括用于全精度的 bf16，用于在兼容 GPU 上提高内存效率的 FP8，以及用于通过 llama.cpp 或 Ollama 进行本地推理的 GGUF。

性能基准测试

在多个智能体编程基准测试中，Ornith-1.0 在同等规模的开源模型中实现了最先进的性能。

高规模性能 (397B 模型)

397B MoE 模型可以与顶级的闭源模型和开源模型竞争。在 SWE-bench Verified 上，它得分 82.4，优于 Qwen3.5-397B (76.4) 和 DeepSeek-V4-Pro-1.6T (80.6)。它在 Terminal-Bench 2.1 上也表现强劲，得分分别为 77.5 (Terminus-2) 和 78.2 (Claude Code)。

中规模性能 (35B 模型)

35B MoE 模型较其基准模型有显著提升。在 SWE-bench Verified 上，它得分 75.6，而 Qwen3.5-35B 为 70。它在 Terminal-Bench 2.1 (Terminus-2) 上也达到了 64.2，显著高于 Qwen3.5-35B 的 41.4。

小规模性能 (9B 模型)

9B Dense 模型在特定任务上优于几个更大的基准模型。例如，在 Terminal-Bench 2.1 (Terminus-2) 上，它得分 43.1，击败了更大的 Gemma4-31B (42.1) 和 Qwen3.5-9B (21.3)。

技术实现与推理服务

Ornith-1.0 是一个推理模型；它在提供最终答案之前会生成一个包含思维链（chain-of-thought）轨迹的 <think> 模块。

部署运行时

要运行 Ornith-1.0，需要以下最低运行时版本：

Transformers: $\ge$ 5.8.1
vLLM: $\ge$ 0.19.1
SGLang: $\ge$ 0.5.9

与智能体框架的集成

由于这些模型暴露了与 OpenAI 兼容的端点并支持工具调用（tool-calling），它们可以直接与多个智能体框架集成：

OpenHands: 通过 LiteLLM 使用 openai/Ornith-1.0 前缀进行路由。
Hermes Agent & OpenClaw: 通过 OPENAI_BASE_URL 直接指向 Ornith 服务器。
Coding CLIs: 针对基于终端的智能体（如 OpenCode）进行了优化。

社区反馈与评论

虽然基准测试显示了强劲的结果，但来自 Hacker News 的社区反馈表明，基准测试性能与实际应用价值之间存在分歧。

批判性观点

一些用户报告称，该模型在非工具增强型对话中的表现较差，并指出其存在幻觉倾向。一位用户强调了基准测试成功与实际发现 Bug 的能力之间的差异：

"这里表现很差，尽管它在其他基准测试上的性能对于其规模而言非常出色，但它几乎只找到了每个模型都能找到的那个 Bug。"

其他批评者认为这些模型可能经过了“基准测试过度优化”（benchmaxxed）——即专门针对测试它们所用的基准测试进行了优化——并认为 9B 模型的 VRAM 要求（适配在 80GB GPU 上）对于许多个人用户来说仍然过高。

正面观点

相反，一些用户发现这些模型在解决编程问题时非常有创意，并指出这是少数几个基于 Qwen 的微调模型中，因其实际编程任务中的实用性而受到本地 LLM 社区好评的之一。

Ornith-1.0: 用于智能体编程的自我改进开源模型

Ornith-1.0: 用于智能体编程的自我改进开源模型

模型变体与架构

性能基准测试

高规模性能 (397B 模型)

中规模性能 (35B 模型)

小规模性能 (9B 模型)

技术实现与推理服务

部署运行时

与智能体框架的集成

社区反馈与评论

批判性观点

正面观点

Sources