Ornith 1.0 릴리스 노트

Ornith 1.0 릴리스 노트

개요

Ornith 1.0은 Deep Reinforce에서 개발한 에이전트형 코딩 모델 제품군입니다. Ornith 1.0의 핵심 혁신은 "self-scaffolding" 개념으로, 모델이 자신의 롤아웃(rollout)을 가이드하고 더 정확한 결과를 얻기 위해 작업별 전용 하네스(또는 스캐폴드)를 즉석에서 직접 작성할 수 있는 능력을 갖추고 있습니다. 이 접근 방식은 컨텍스트 엔지니어링의 책임을 인간 개발자에서 모델 자체로 전환합니다.

모델 제품군 및 아키텍처

Ornith 1.0은 Qwen 3.5 및 Gemma 4 제품군을 기반으로 한 네 가지 모델로 구성됩니다. 제품군 내의 모든 모델은 오픈 웨이트(open weights)로 제공됩니다:

  • 9B: Qwen 3.5 기반.
  • 31B: Gemma 4 기반.
  • 35B MoE: Qwen 3.5 기반.
  • 397B MoE: Qwen 3.5 기반.

이 모델들은 새로운 사전 학습(pre-train) 모델이 아니라, 에이전트형 궤적(rollouts)과 이를 가이드하는 스캐폴드를 모두 생성하는 데 중점을 둔 미드 트레이닝(mid-training) 및 사후 학습(post-training)의 결과물입니다.

학습 방법론: 2단계 RL

Deep Reinforce는 self-scaffolding을 가능하게 하기 위해 2단계 강화 학습(RL) 프로세스를 활용했습니다. 프로세스는 다음 단계를 따릅니다:

  1. Scaffold Proposal: 모델이 작업과 이전에 사용된 스캐폴드에 따라 조건화되어, 해당 하네스의 개선된 버전을 제안합니다.
  2. Rollout Generation: 새로운 하네스에 따라 조건화되어, 모델이 원하는 결과에 도달하기 위한 롤아웃을 제안합니다.

이러한 롤아웃은 Group Relative Policy Optimization (GRPO)를 활용하여 스캐폴드 생성과 롤아웃 실행 모두를 위한 모델 가중치 업데이트를 위한 보상 신호로 사용됩니다.

보상 해킹(Reward Hacking) 방어

모델이 실제로 작업을 해결하지 않고 높은 보상을 얻기 위해 하네스에 지름길을 만드는 방식으로 "속임수"를 쓰는 것을 방지하기 위해, Ornith 1.0은 3단계 방어 시스템을 채택합니다:

  • Immutable Environment: 스캐폴딩이 실행되는 샌드박스, 도구 및 환경은 불변(immutable)이며 모델이 변경할 수 없습니다.
  • Deterministic Monitor: 모니터가 스캐폴딩의 동작을을 트래킹하고, 모델이 검증 스크립트를 수정하거나 승인되지 않은 도구를 사용하려고 시도할 경우 모델에게 페널티를 부여합니다.
  • LLM Judge: LLM이 최종 판사 역할을 수행하며, 허용되지 않은 수단을 통해 달성된 것으로 보이는 모든 결과를 거부할 수 있는 권한을 가집니다.

성능 및 벤치마크

제공된 벤치마크에 따르면, 가장 큰 Ornith 모델(397B MoE)은 Qwen 3.7 Max 및 MiniMax를 포함한 여러 다른 모델을 능가력하며 Claude Opus와 경쟁할 수 있는 수준입니다. 9B 및 35B MoE와 같은 더 작은 모델들도 비슷한 크기나 더 큰 모델들에 비해 강력한 성능을 보여주며, 9B 모델은 제한된 하드웨어에서 로컬 코딩 작업을 수행하기 위한 실행 가능한 옵션이 됩니다.

실무 적용 및 데모

Ornith 1.0은 긴 사고 체인(chain-of-thought) 프로세스를 통해 복잡하고 다단계적인 추론 및 코드 생성 능력을 보여줍니다. 주요 예시는 다음과 같습니다:

  • SVG Generation: 모델은 펠리컨과 같은 복잡한 이미지를 그리는 코드를 성공적으로 생성할 수 있습니다.
  • RAG Tasks: 모델은 제공된 데이터를 추론하여 답을 찾는 방식으로 Retrieval-Augmented Generation 질문을 처리합니다.
  • **Dynamic Harness Creation:** 일기 예보 하네스를 만들라는 요청을 받으면, 모델은 API의 필요성을 자이노미우스하게 자율적으로 식별하고, 만약 API 키가 사용 불가능하다고 알려지면, 무료이며 API가 필요 없는 소스(예: Open-Meteo API)로 전환하여 스크립트를 그에 맞게 다시 작성할 수 있습니다.
    
  • Interface Building: 모델은 자신이 생성한 하네스를 감싸는 Gradio 인터페이스와 같은 기능적인 UI 컴포넌트를 구축할 수 있습니다.",

Sources