Ornith-1.0: 用于智能体编程的自我改进开源模型
Ornith-1.0: 用于智能体编程的自我改进开源模型
Ornith-1.0 是一系列专门为智能体编程(agentic coding)优化的自我改进开源模型。通过利用一种强化学习(RL)框架,该框架能够共同优化解决方案的展开(rollouts)及其驱动程序(scaffolds),Ornith-1.0 能够发现更高效的搜索轨迹,从而生成更高质量的代码解决方案。
模型变体与架构
Ornith-1.0 提供三种主要规模,是在 Gemma 4 和 Qwen 3.5 的基础上进行后训练(post-trained)得到的。所有模型都支持 256K (262,144-token) 上下文窗口,并提供与 OpenAI 兼容的接口。
- 9B-Dense: 专为单 GPU 推理和微调设计。它可以适配在单个 80GB GPU 上。
- 35B-MoE: 混合专家模型(Mixture-of-Experts),适用于多 GPU 推理。
- 397B-MoE: 大规模混合专家模型,适用于高性能多 GPU 节点。
权重以多种格式提供,以适应不同的硬件,包括用于全精度的 bf16,用于在兼容 GPU 上提高内存效率的 FP8,以及用于通过 llama.cpp 或 Ollama 进行本地推理的 GGUF。
性能基准测试
在多个智能体编程基准测试中,Ornith-1.0 在同等规模的开源模型中实现了最先进的性能。
高规模性能 (397B 模型)
397B MoE 模型可以与顶级的闭源模型和开源模型竞争。在 SWE-bench Verified 上,它得分 82.4,优于 Qwen3.5-397B (76.4) 和 DeepSeek-V4-Pro-1.6T (80.6)。它在 Terminal-Bench 2.1 上也表现强劲,得分分别为 77.5 (Terminus-2) 和 78.2 (Claude Code)。
中规模性能 (35B 模型)
35B MoE 模型较其基准模型有显著提升。在 SWE-bench Verified 上,它得分 75.6,而 Qwen3.5-35B 为 70。它在 Terminal-Bench 2.1 (Terminus-2) 上也达到了 64.2,显著高于 Qwen3.5-35B 的 41.4。
小规模性能 (9B 模型)
9B Dense 模型在特定任务上优于几个更大的基准模型。例如,在 Terminal-Bench 2.1 (Terminus-2) 上,它得分 43.1,击败了更大的 Gemma4-31B (42.1) 和 Qwen3.5-9B (21.3)。
技术实现与推理服务
Ornith-1.0 是一个推理模型;它在提供最终答案之前会生成一个包含思维链(chain-of-thought)轨迹的 <think> 模块。
部署运行时
要运行 Ornith-1.0,需要以下最低运行时版本:
- Transformers: $\ge$ 5.8.1
- vLLM: $\ge$ 0.19.1
- SGLang: $\ge$ 0.5.9
与智能体框架的集成
由于这些模型暴露了与 OpenAI 兼容的端点并支持工具调用(tool-calling),它们可以直接与多个智能体框架集成:
- OpenHands: 通过 LiteLLM 使用
openai/Ornith-1.0前缀进行路由。 - Hermes Agent & OpenClaw: 通过
OPENAI_BASE_URL直接指向 Ornith 服务器。 - Coding CLIs: 针对基于终端的智能体(如 OpenCode)进行了优化。
社区反馈与评论
虽然基准测试显示了强劲的结果,但来自 Hacker News 的社区反馈表明,基准测试性能与实际应用价值之间存在分歧。
批判性观点
一些用户报告称,该模型在非工具增强型对话中的表现较差,并指出其存在幻觉倾向。一位用户强调了基准测试成功与实际发现 Bug 的能力之间的差异:
"这里表现很差,尽管它在其他基准测试上的性能对于其规模而言非常出色,但它几乎只找到了每个模型都能找到的那个 Bug。"
其他批评者认为这些模型可能经过了“基准测试过度优化”(benchmaxxed)——即专门针对测试它们所用的基准测试进行了优化——并认为 9B 模型的 VRAM 要求(适配在 80GB GPU 上)对于许多个人用户来说仍然过高。
正面观点
相反,一些用户发现这些模型在解决编程问题时非常有创意,并指出这是少数几个基于 Qwen 的微调模型中,因其实际编程任务中的实用性而受到本地 LLM 社区好评的之一。