Ornith-1.0: エージェンティック・コーディングのための自己改善型オープンソースモデル
Ornith-1.0: エージェンティック・コーディングのための自己改善型オープンソースモデル
Ornith-1.0は、エージェンティック・コーディング(agentic coding)に特化して最適化された、自己改善型のオープンソースモデルシリーズです。ソリューションのロールアウトと、それを駆動するスキャフォールド(scaffolds)の両方を共同で最適化する強化学習(RL)フレームワークを利用することで、Ornith-1.0は、より高品質なコード・ソリューションを生成するための、より効率的な探索軌跡を発見します。
モデルのバリエーションとアーキテクチャ
Ornith-1.0は、Gemma 4およびQwen 3.5の上にポストトレーニングされた、主に3つのサイズで提供されます。すべてのモデルは256K (262,144-token) コンテキスト・ウィンドウをサポートし、OpenAI互換のインターフェースを提供します。
- 9B-Dense: シングルGPUでのサービングとファインチューニング向けに設計されています。単一の80GB GPUに収まります。
- 35B-MoE: マルチGPUサービングに適したMixture-of-Expertsモデルです。
- 397B-MoE: 高性能なマルチGPUノード向けの、大規模なMixture-of-Expertsモデルです。
重みは、フル精度用のbf16、互換性のあるGPUでのメモリ効率向上のためのFP8、およびllama.cppやOllamaを介したローカル推論用のGGUFを含む、さまざまなハードウェアに対応するために複数の形式で提供されます。
パフォーマンス・ベンチマーク
Ornith-1.0は、いくつかのエージェンティック・コーディング・ベンチマークにおいて、同規模のオープンソースモデルの中で最先端のパフォーマンスを実現しています。
高スケール・パフォーマンス (397B モデル)
397B MoEモデルは、トップティアのプロプライエタリおよびオープンモデルと競合します。SWE-bench Verifiedにおいて、82.4を記録し、Qwen3.5-397B (76.4) および DeepSeek-V4-Pro-1.6T (80.6) を上回りました。また、Terminal-Bench 2.1でも強力な結果を示し、77.5 (Terminus-2) および 78.2 (Claude Code) を記録しました。
中スケール・パフォーマンス (35B モデル)
35B MoEモデルは、ベースラインに対して大幅な向上を示しています。SWE-bench Verifiedにおいて、75.6を記録し、Qwen3.5-35Bの70と比較して向上しました。また、Terminal-Bench 2.1 (Terminus-2)において64.2を達成し、Qwen3.5-35Bが記録した41.4よりも大幅に高くなっています。
小スケール・パフォーマンス (9B モデル)
9B Denseモデルは、特定のタスクにおいて、いくつかのより大きなベースラインを上回ります。例えば、**Terminal-Bench 2.1 (Terminus-2)**において、43.1を記録し、より大きなGemma4-31B (42.1) および Qwen3.5-9B (21.3) を上回りました。
技術的実装とサービング
Ornith-1.0は推論モデルです。最終的な回答を提供する前に、<think>ブロックを含む思考の連鎖(chain-of-thought)のトレースを生成します。
デプロイメント・ランタイム
Ornith-1.0をサービングするには、以下の最小ランタイム・バージョンが必要です:
- Transformers: $\ge$ 5.8.1
- vLLM: $\ge$ 0.19.1
- SGLang: $\ge$ 0.5.9
エージェント・フレームワークとの統合
モデルがOpenAI互換のエンドポイントを公開し、ツール・コーリングをサポートしているため、これらのモデルはいくつかのエージェンティック・フレームワークと直接統合できます:
- OpenHands:
openai/Ornith-1.0プレフィックスを使用して LiteLLM を介してルーティングされます。 - Hermes Agent & OpenClaw:
OPENAI_BASE_URLを介して Ornith サーバーに直接接続します。 - Coding CLIs: OpenCode のようなターミナルベースのエージェント向けに最適化されています。
コミュニティ・レセプションと批判
ベンチマークは強力な結果を示していますが、Hacker News のコミュニティ・フィードバックは、ベンチマーク・パフォーマンスと実世界のウェルティリティ(実用性)の間に隔たりがあることを示唆しています。
批判的な視点
一部のユーザーは、ツール拡張されていないチャットにおけるモデルのパフォーマンスが低く、ハルシネーション(幻覚)の傾向があることを報告しています。あるユーザーは、ベンチマークの成功と実用的なバグ発見能力の間の不一致を示唆しました:
""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""- 性能が低い。他のベンチマークでの性能がそのサイズに対して非常に優れているにもかかわらず、ほとんどのモデルが発見できるようなバグを一つしか見つけられなかった。
他の批判者は、モデルが「ベンチマークに特化(benchmaxxed)」されている可能性を指摘し、9BモデルのVRAM要件(80GB GPUに収まる)が多くの個人ユーザーにとって依然として高すぎることを主張しています。
肯定的な視点
逆に、一部のユーザーは、モデルがコーディング問題へのアプローチが独創的であることを見出し、これが、コーディング・タスクにおける実際の実用性においてローカルLLMコミュニティから高く評価されている数少ないQwenベースのファインチューンの一つであると述べています。