Ornith 1.0 发布说明

概述

Ornith 1.0 是由 Deep Reinforce 开发的一系列智能体编码模型。Ornith 1.0 的核心创新在于“自我脚手架”（self-scaffolding）概念，即模型具备实时编写其特定任务脚手架（或 harness）的能力，以引导自身的 rollout 并获得更准确的结果。这种方法将上下文工程的责任从人类开发者转移到了模型本身。

模型系列与架构

Ornith 1.0 由基于 Qwen 3.5 和 Gemma 4 系列的四个模型组成。该系列中的所有模型均以开源权重形式提供：

9B: 基于 Qwen 3.5。
31B: 基于 Gemma 4。
35B MoE: 基于 Qwen 3.5。
397B MoE: 基于 Qwen 3.5。

这些模型并非全新的预训练模型，而是专注于生成智能体轨迹（rollouts）及其引导脚手架的中期训练（mid-training）和后期训练（post-training）的结果。

训练方法：两阶段强化学习

Deep Reinforce 利用两阶段强化学习（RL）过程来实现自我脚手架功能。该过程遵循以下步骤：

脚手架提议： 模型以任务和之前使用的脚手架为条件，然后提议一个改进后的 harness 版本。
Rollout 生成： 以新的 harness 为条件，模型提议一个 rollout 以达到预期结果。

这些 rollouts 被用作奖励信号，利用 Group Relative Policy Optimization (GRPO) 来更新模型在脚手架生成和 rollout 执行方面的权重。

防御奖励作弊（Reward Hacking）

为了防止模型通过在 harness 中创建捷径来获取高奖励而不实际解决任务（即“作弊”），Ornith 1.0 采用了三层防御系统：

不可变环境： 运行脚手架的沙箱、工具和环境是不可变的，无法被模型更改。
确定性监控器： 监控器会跟踪脚手架的操作，如果模型试图修改验证脚本或使用未经授权的工具，监控器会对其进行惩罚。
LLM 法官： 一个 LLM 充当最终法官，有权否决任何看起来是通过违规手段实现的任何结果。

性能与基准测试

根据提供的基准测试，最大的 Ornith 模型 (397B MoE) 的表现优于包括 Qwen 3.7 Max 和 MiniMax 在内的多个其他模型，并能与 Claude Opus 竞争。较小的模型，如 9B 和 35B MoE，在面对同等规模或更大规模的模型时也表现强劲，使得 9B 模型成为在有限硬件上进行本地编码任务的可行选择。

实际应用与演示

Ornith 1.0 通过长思维链过程展示了处理复杂、多步推理和代码生成的高能力。关键示例包括：

SVG 生成： 模型可以成功生成代码来绘制复杂的图像，例如鹈鹕。
RAG 任务： 模型通过对提供的数据进行推理来寻找答案，从而处理检索增强生成（RAG）问题。
动态 Harness 创建： 当被要求创建一个天气预报 harness 时，模型可以自主识别出对 API 的需求，并且如果被告知没有可用的 API 密钥，它能够转向寻找一个免费的、不需要 API 密钥的来源（例如 Open-Meteo API）并相应地重写脚本。
界面构建： 模型可以构建功能性的 UI 组件，例如 Gradio 界面，以封装其创建的 harness。

Ornith 1.0 发布说明

Ornith 1.0 发布说明

概述

模型系列与架构

训练方法：两阶段强化学习

防御奖励作弊（Reward Hacking）

性能与基准测试

实际应用与演示

Sources