Ornith 1.0 リリースノート

概要

Ornith 1.0は、Deep Reinforceによって開発されたエージェンティックなコーディングモデルのファミリーです。Ornith 1.0の核心的な革新は「セルフ・スキャフォールディング（自己足場構築）」という概念にあります。これは、モデルが自身のロールアウトをガイドし、より正確な結果を得るために、タスク固有のハーネス（またはスキャフォールド）を即座に自ら書き上げる能力を持つことを意味します。このアプローチにより、コンテキスト・エンジニアリングの責任を人間の開発者からモデル自身へと移行させます。

モデルファミリーとアーキテクチャ

Ornith 1.0は、Qwen 3.5およびGemma 4ファミリーに基づいた4つのモデルで構成されています。ファミリー内のすべてのモデルはオープンウェイトとして利用可能です：

9B: Qwen 3.5に基づいています。
31B: Gemma 4に基づいています。
35B MoE: Qwen 3.5に基づいています。
397B MoE: Qwen 3.5に基づいています。

これらのモデルは新しい事前学習モデルではなく、エージェンティックな軌跡（ロールアウト）と、それらをガイドするスキャフォールドの両方を生成することに焦点を当てた、中間学習（mid-training）および事後学習（post-training）の結果です。

学習手法：2段階RL

Deep Reinforceは、セルフ・スキャフォールディングを可能にするために、2段階の強化学習（RL）プロセスを利用しました。プロセスは以下の手順に従います：

スキャフォールドの提案: モデルはタスクと以前に使用されたスキャフォールドを条件として、そのハーネスの洗練されたバージョンを提案します。
ロールアウトの生成: 新しいハーネスを条件として、モデルは目的の結果に到達するためのロールアウトを提案します。

これらのロールアウトは、Group Relative Policy Optimization (GRPO)を利用して、スキャフォールド生成とロールアウト実行の両方のモデルの重みを更新するための報酬信号として使用されます。

報酬ハッキングへの防御

モデルがタスクを実際に解決せずに、高い報酬を得るためにハーネス内にショートカットを作成して「ズル」をすることを防ぐため、Ornith 1.0は3層の防御システムを採用しています：

不変の環境: スキャフォールディングが実行されるサンドボックス、ツール、および環境は不変であり、モデルによって変更することはできません。
決定論的モニター: モニターがスキャフォールディングのアクションを追跡し、許可されていないツールを使用したり、検証スクリプトを修正しようとしたりする場合にモデルにペナルティを課します。
LLM Judge: LLMが最終的な判定役として機能し、不正な手段で達成されたと思われる結果をすべて拒否する権限を持ちます。

パフォーマンスとベンチマーク

提供されたベンチマークによると、最大のOrnithモデル（397B MoE）は、Qwen 3.7 MaxやMiniMaxを含む他のいくつかのモデルを凌駕し、Claude Opusと肩を並べる性能を示しています。より小さなモデル、例えば9Bや35B MoEなどは、同等またはそれ以上のサイズのモデルに対して強力なパフォーマンスを発揮しており、9Bモデルは限られたハードウェアでのローカルなコーディングタスクにおいて実行可能な選択肢となります。

実用的なアプリケーションとデモ

Ornith 1.0は、長い思考の連鎖（chain-of-thought）プロセスを通じて、複雑で多段階の推論とコード生成において高い能力を示しています。主な例は以下の通りです：

SVG生成: モデルは、ペリカンなどの複雑な画像を生成するためのコードを正常に描画できます。
RAGタスク: モデルは、提供されたデータを推論によって読み解き、答えを見つけることで、Retrieval-Augmented Generationの質問に対応します。
動的なハーネス作成: 天気予報のハーネスを作成するよう求められた際、モデルはAPIの必要性を自律的に特定し、もしAPIキーが利用できないと告げられた場合、APIを必要としない無料のソース（例：Open-Meteo API）に切り替え、それに応じてスクリプトを書き換えることができます。
インターフェース構築: モデルは、作成したハーネスをラップするためのGradioインターフェースのような機能的なUIコンポーネントを構築できます。

Ornith 1.0 リリースノート

Ornith 1.0 リリースノート

概要

モデルファミリーとアーキテクチャ

学習手法：2段階RL

報酬ハッキングへの防御

パフォーマンスとベンチマーク

実用的なアプリケーションとデモ

Sources