Shinka Evolve: 과학적 발견을 위한 개방형 프로그램 탐색
Shinka Evolve: 과학적 발견을 위한 개방형 프로그램 탐색
핵심 논제: 고정된 문제 최적화를 넘어
진정한 과학적 진보는 고정된, 인간이 정의한 문제에 대한 솔루션을 최적화하는 것이 아니라 문제와 해결책이 함께 진화하는 과정이 필요합니다. AlphaEvolve과 같은 기존 시스템은 특정 작업에 대한 솔루션을 최적화할 수 있지만, 주요 돌파구에 도달하기 위해 필요한 "디딤돌"—중간 단계이면서 잠재적으로 관련 없는 문제—을 자동으로 발명하는 능력이 부족해 지역 최적점에 머무르는 경우가 많습니다.
Shinka Evolve: 아키텍처와 혁신
Shinka Evolve는 대형 언어 모델(LLM)을 변이 연산자로 활용하여 최적의 프로그램을 탐색하는 샘플 효율적인 진화 프레임워크로 설계되었습니다. 주요 목표는 최첨단 결과를 찾는 데 필요한 계산 비용과 평가 횟수를 줄여 과학적 발견을 민주화하는 것입니다.
진화 탐색 메커니즘
Shinka Evolve는 트리 구조로 조직된 프로그램 아카이브를 유지합니다. 과정은 다음과 같은 반복 루프를 따릅니다:
- 샘플링: 데이터베이스에서 부모 프로그램과 "영감" 프로그램을 샘플링합니다.
- 변이: LLM에 코드 편집, 전체 재작성, 혹은 교차(overlap) (두 개의 서로 다른 프로그램을 결합) 를 통해 프로그램을 개선하도록 프롬프트합니다.
- 평가: 생성된 프로그램을 합성 평가자를 통해 실행하여 증거를 수집합니다.
- 확산: 성공적인 프로그램에서 얻은 지식을 데이터베이스 전체에 확산시켜 향후 탐색을 안내합니다.
주요 기술 혁신
효율성과 다양성을 높이기 위해 Shinka Evolve는 여러 메커니즘을 도입합니다:
- UCB 밴딧을 통한 모델 앙상블: 단일 LLM에 의존하는 대신, Shinka Evolve는 최전선 모델(예: GPT-5, Sonnet 4.5, Gemini)의 앙상블을 사용합니다. Upper Confidence Bound (UCB) 밴딧 알고리즘을 적용해 특정 변이에 사용할 모델을 적응적으로 선택함으로써 다양한 모델 탐색과 과거에 개선을 가져온 모델 활용 사이의 균형을 맞춥니다.
- Mutable Markers: LLM이 import와 같은 필수 코드를 삭제하지 않도록, 시스템은 코드의 어느 부분이 변이 가능하고 진화 가능한지를 정의하는 마커를 사용하며, 견고성을 보장하기 위해 거부 샘플링을 적용합니다.
- Meta-Scratchpad: 시스템은 성공적인 프로그램에서 추출한 통찰과 요약을 전역적으로 유지합니다. 이러한 통찰은 메타 권고사항으로 변환되어 시스템 프롬프트에 추가되어, 시스템이 의미적으로 발견을 파악하고 전파할 수 있게 합니다.
구체적인 결과와 적용 사례
Shinka Evolve는 훨씬 적은 평가 횟수로 인간이 설계하거나 기존에 알려진 알고리즘 결과를 능가하는 능력을 입증했습니다:
- 원형 포장: 시스템은 200회 미만의 LLM 상호작용으로 원형 포장(정사각형 안에 원들의 반지름 합을 최대화)에서 최첨단 결과를 달성했습니다. Robert Lange은 "대리 문제"(정확한 해로 정제하기 전에 약간의 겹침을 허용하는 문제)를 사용한 것이 성공의 핵심 디딤돌이었다고 언급했습니다.
- 경쟁 프로그래밍: ALE-Bench(장기 알고리즘 엔지니어링 벤치마크)에서 Shinka Evolve는 초기 솔루션을 최적화해 AtCoder 경쟁 프로그래밍 챌린지에서 2위에 해당하는 성적을 얻을 수 있었습니다.
- Agentic Scaffolds: Automated Design of Agentic Systems (ADAS) 프레임워크를 활용해 Shinka Evolve는 AIME 수학 벤치마크용 에이전트 스캐폴드를 진화시켰으며, GPT-4.1 nano와 같은 더 작고 저렴한 모델의 성능을 크게 향상시켰습니다.
- MoE 부하 균형: 시스템은 Mixture-of-Experts (MoE) 모델을 위한 부하 균형 손실 함수를 진화시켜, 모델 성능과 부하 균형 사이의 트레이드오프를 나타내는 볼록 껍질을 밝혀냈습니다.
"AI Scientist"와 연구의 미래
Robert Lange은 AI Scientist v1에서 v2로의 전환을 논의하며, 템플릿 기반 선형 실행에서 에이전트 기반 트리 탐색으로의 변화를 설명합니다.
선형에서 트리 탐색으로
v1은 선형 경로(아이디어 → 실험 → 논문)를 따랐지만, v2는 Karl Popper의 과학적 방법에 기반한 가설 생성, 실행, 반증의 루프를 구현합니다. 이를 통해 에이전트는 이전 실험(실패 혹은 성공)에서 축적된 증거에 따라 다음 단계를 조정할 수 있습니다.
"Slop" 비판과 인간의 역할
AI가 생성한 논문이 깊은 이해 없이 표면적인 모방에 불과하다는 "slop" 우려에 대해 Lange은 모든 출력이 자연에 기여할 수준은 아니라고 인정합니다. 그러나 그는 현재 시스템이 자율 연구에 있어 "GPT-1 순간"에 있다고 주장합니다. 그는 인간이 연구를 수행하는 역할에서 지도하는 역할로 전환할 것이며, 탐색 방향을 조정하고 최종 결과를 검증하는 동안 AI가 실험 실행이라는 반복적인 고된 작업을 담당하게 될 것이라고 전망합니다.
장기 예측: 루비콘 순간
Lange은 향후 5~20년 동안 과학 연구가 근본적으로 변할 것이라고 예측합니다. 그는 AI 시스템이 새로운 대규모 아키텍처(예: Transformer의 후속)를 발견하고 인간이 이를 채택하는 시점을 "루비콘 순간"이라고 정의합니다. 그는 현재 AI가 표면적인 재조합을 수행하고 있지만, 다양성, 스케일링, 검증 가능한 피드백 루프의 통합을 통해 깊고 근거 있는 이해와의 격차가 메워질 것이라고 믿습니다.