Ornith-1.0: 에이전트 코딩을 위한 자기 개선형 오픈 소스 모델

Ornith-1.0: 에이전트 코딩을 위한 자기 개선형 오픈 소스 모델

Ornith-1.0은 에이전트 코딩에 특화되어 최적화된 일련의 자기 개선형 오픈 소스 모델입니다. 솔루션 롤아웃(solution rollouts)과 이를 구동하는 스캐폴드(scaffolds)를 공동으로 최적화하는 강화 학습(RL) 프레임워크를 활용함으로써, Ornith-1.0은 더 높은 품질의 코드 솔루션을 생성하기 위한 더 효율적인 탐색 경로를 발견합니다.

모델 변형 및 아키텍처

Ornith-1.0은 Gemma 4 및 Qwen 3.5를 기반으로 사후 학습(post-trained)된 세 가지 주요 크기로 제공됩니다. 모든 모델은 256K (262,144-token) 컨텍스트 창을 지원하며 OpenAI 호환 인터페이스를 제공합니다.

  • 9B-Dense: 단일 GPU 서빙 및 미세 조정(fine-tuning)을 위해 설계되었습니다. 단일 80GB GPU에 적합합니다.
  • 35B-MoE: 멀티 GPU 서빙에 적합한 Mixture-of-Experts 모델입니다.
  • 397B-MoE: 고성능 멀티 GPU 노드를 위한 대규모 Mixture-of-Experts 모델입니다.

가중치는 다양한 하드웨어에 맞추기 위해 여러 형식으로 제공됩니다. 여기에는 전체 정밀도를 위한 bf16, 호환 가능한 GPU에서 메모리 효율성을 위한 FP8, 그리고 llama.cpp 또는 Ollama를 통한 로컬 추론을 위한 GGUF가 포함됩니다.

성능 벤치마크

Ornith-1.0은 여러 에이전트 코딩 벤치마크에서 비슷한 크기의 오픈 소스 모델 중 최고 수준의 성능을 달성합니다.

대규모 성능 (397B 모델)

397B MoE 모델은 최고 수준의 독점 및 오픈 모델들과 경쟁합니다. SWE-bench Verified에서 82.4점을 기록하여 Qwen3.5-397B (76.4)와 DeepSeek-V4-Pro-1.6T (80.6)를 능가합니다. 또한 Terminal-Bench 2.1에서도 강력한 결과를 보여주며, 77.5 (Terminus-2)와 78.2 (Claude Code)를 기록했습니다.

중간 규모 성능 (35B 모델)

35B MoE 모델은 베이스라인 모델 대비 상당한 성능 향상을 보여줍니다. SWE-bench Verified에서 75.6점을 기록하여 Qwen3.5-35B의 70점과 비교됩니다. 또한 Terminal-Bench 2.1 (Terminus-2)에서 64.2점을 달성하여 Qwen3.5-35B가 기록한 41.4점보다 훨씬 높습니다.

소규모 성능 (9B 모델)

9B Dense 모델은 특정 작업에서 여러 더 큰 베이스라인 모델을 능가합니다. 예를 들어, **Terminal-Bench 2.1 (Terminus-2)**에서 43.1점을 기록하여 더 큰 Gemma4-31B (42.1)와 Qwen3.5-9B (21.3)를 능가합니다.

기술적 구현 및 서빙

Ornith-1.0은 추론 모델입니다. 최종 답변을 제공하기 전에 <think> 블록을 통해 사고의 연쇄(chain-of-thought) 흔적을 생성합니다.

배포 런타임

Ornith-1.0을 서빙하기 위해서는 다음과 같은 최소 런타임 버전이 필요합니다:

  • Transformers: $\ge$ 5.8.1
  • vLLM: $\ge$ 0.19.1
  • SGLang: $\ge$ 0.5.9

에이전트 프레임워크와의 통합

모델들이 OpenAI 호환 엔드포인트를 노출하고 도구 호출(tool-calling)을 지원하기 때문에, 여러 에이전트 프레임워크와 직접 통합됩니다:

  • OpenHands: LiteLLM을 통해 openai/Ornith-1.0 접두사를 사용하여 라우팅합니다.
  • Hermes Agent & OpenClaw: OPENAI_BASE_URL을 통해 Ornith 서버를 직접 가리킵니다.
  • Coding CLIs: OpenCode와 같은 터미널 기반 에이전트용으로 최적화되었습니다.

커뮤니티 반응 및 비판

벤치마크 결과는 강력한 성능을를 보여주지만, Hacker News의 커뮤니티 피드백은 벤치마크 성능과 실제 활용도의 차이점에 대해 의견이 나뉩니다.

비판적 관점

일부 사용자들은 도구 증강(non-tool-augmented) 채팅에서의 모델 성능이 낮으며 환각(hallucination) 경향이 있다고 보고했습니다. 한 사용자는 벤치마크 성공과 실제 버그 발견 능력 사이의 불일치를 강조했습니다:

"그 크기에 비해 다른 벤치마크 성능은 매우 뛰어나지만, 여기서는 성능이 미흡합니다. 거의 모든 모델이 찾아낸 버그 하나만 겨우 찾아냈습니다."

다른 비판가들은 모델이 특정 벤치마크에 맞춰 최적화된 "benchmaxxed" 상태일 수 있다고 제안하며, 9B 모델의 VRAM 요구 사항(80GB GPU에 적합)이 많은 개인 사용자들에게는 여전히 너무 높다고 주장합니다.

긍정적 관점

반대로, 어떤 사용자들은 모델이 코딩 문제에 접근하는 방식이 창의적이라고 느꼈으며, 이는 Qwen 기반 미세 조정 모델 중 코딩 작업에서의 실제 유용성 덕분에 로컬 LLM 커뮤니티에서 좋은 반응을 얻은 몇 안 되는 사례 중 하나라고 언급했습니다.

Sources