Ornith 1.0 发布说明

Ornith 1.0 发布说明

概述

Ornith 1.0 是由 Deep Reinforce 开发的一系列智能体编码模型。Ornith 1.0 的核心创新在于“自我脚手架”(self-scaffolding)概念,即模型具备实时编写其特定任务脚手架(或 harness)的能力,以引导自身的 rollout 并获得更准确的结果。这种方法将上下文工程的责任从人类开发者转移到了模型本身。

模型系列与架构

Ornith 1.0 由基于 Qwen 3.5 和 Gemma 4 系列的四个模型组成。该系列中的所有模型均以开源权重形式提供:

  • 9B: 基于 Qwen 3.5。
  • 31B: 基于 Gemma 4。
  • 35B MoE: 基于 Qwen 3.5。
  • 397B MoE: 基于 Qwen 3.5。

这些模型并非全新的预训练模型,而是专注于生成智能体轨迹(rollouts)及其引导脚手架的中期训练(mid-training)和后期训练(post-training)的结果。

训练方法:两阶段强化学习

Deep Reinforce 利用两阶段强化学习(RL)过程来实现自我脚手架功能。该过程遵循以下步骤:

  1. 脚手架提议: 模型以任务和之前使用的脚手架为条件,然后提议一个改进后的 harness 版本。
  2. Rollout 生成: 以新的 harness 为条件,模型提议一个 rollout 以达到预期结果。

这些 rollouts 被用作奖励信号,利用 Group Relative Policy Optimization (GRPO) 来更新模型在脚手架生成和 rollout 执行方面的权重。

防御奖励作弊(Reward Hacking)

为了防止模型通过在 harness 中创建捷径来获取高奖励而不实际解决任务(即“作弊”),Ornith 1.0 采用了三层防御系统:

  • 不可变环境: 运行脚手架的沙箱、工具和环境是不可变的,无法被模型更改。
  • 确定性监控器: 监控器会跟踪脚手架的操作,如果模型试图修改验证脚本或使用未经授权的工具,监控器会对其进行惩罚。
  • LLM 法官: 一个 LLM 充当最终法官,有权否决任何看起来是通过违规手段实现的任何结果。

性能与基准测试

根据提供的基准测试,最大的 Ornith 模型 (397B MoE) 的表现优于包括 Qwen 3.7 Max 和 MiniMax 在内的多个其他模型,并能与 Claude Opus 竞争。较小的模型,如 9B 和 35B MoE,在面对同等规模或更大规模的模型时也表现强劲,使得 9B 模型成为在有限硬件上进行本地编码任务的可行选择。

实际应用与演示

Ornith 1.0 通过长思维链过程展示了处理复杂、多步推理和代码生成的高能力。关键示例包括:

  • SVG 生成: 模型可以成功生成代码来绘制复杂的图像,例如鹈鹕。
  • RAG 任务: 模型通过对提供的数据进行推理来寻找答案,从而处理检索增强生成(RAG)问题。
  • 动态 Harness 创建: 当被要求创建一个天气预报 harness 时,模型可以自主识别出对 API 的需求,并且如果被告知没有可用的 API 密钥,它能够转向寻找一个免费的、不需要 API 密钥的来源(例如 Open-Meteo API)并相应地重写脚本。
  • 界面构建: 模型可以构建功能性的 UI 组件,例如 Gradio 界面,以封装其创建的 harness。

Sources