SkillOpt: 딥러닝 스타일의 최적화 루프를 사용하여 자기 진화형 에이전트 기술을 구현하는 실행 전략
SkillOpt: 딥러닝 스타일의 최적화 루프를 사용하여 자기 진화형 에이전트 기술을 구현하는 실행 전략
해결하는 문제
SkillOpt는 AI 에이전트 기술에 대한 재현 가능하고 규율 있는 최적화의 부족 문제를 해결합니다. 대부분의 에이전트 기술은 수작업으로 제작되거나 단일 패스로 생성되지만, 피드백 하에서 안정적으로 개선되지 못하는 경우가 많습니다. SkillOpt는 기술 문서 자체를 동결된 모델의 "trainable state"로 취급하여, 모델의 실제 가중치를 수정할 필요 없이 기술이 진화하고 개선될 수 있도록 합니다.
작동 방식
SkillOpt는 딥러닝의 개념을 사용하여 텍스트 기반 기술에 대한 훈련 루프를 구현합니다. 별도의 optimizer model을 사용하여 점수가 매겨진 rollout을 분석하고 기술 문서에 대해 제한된 편집(텍스트 추가, 삭제 또는 교체)을 수행합니다. 후보 편집은 별도의 validation score를 엄격히 개선하는 경우에만 수락됩니다. 안정성을 유지하기 위해 텍스트 학습률 예산(textual learning-rate budget), 거부된 편집 버퍼(rejected-edit buffer), 그리고 에포크 단위 업데이트(epoch-wise updates)를 채택합니다. 최종 결과물은 추론 시 어떤 타겟 모델과도 추가적인 오버헤드 없이 사용할 수 있는 컴팩트한 best_skill.md 파일입니다.
대상 사용자
이 도구는 비용이 많이 드는 모델 미세 조정(fine-tuning)을 수행하지 않고도 특정 작업이나 벤치마크에서 에이전트의 성능을 실제로 최적화하고자 하는 개발자 및 연구자(예: Claude Code, Codex, 또는 Copilot을 사용하는 사용자)를 위해 설계되었습니다.
주요 특징
- Weight-Free Optimization: 모델 가중치를 건드리지 않고 에이전트 성능을 개선합니다.
- Zero Inference Overhead: 최적화된 기술 아티팩트는 배포 시 사용되는 단순한 markdown 파일입니다.
- High Performance: 여러 벤치마크와 타겟 모델(예: GPT-5.5)에서 상당한 정확도 향상을 입증했습니다.
- Cross-Model Transfer: 최적화된 기술은 서로 다른 모델 규모와 실행 하네스(execution harnesses) 간에 전송될 수 있습니다.
- Extensible Architecture: 여러 백엔드(OpenAI, Azure, Claude, Qwen, MiniMax)를 지원하며 새로운 벤치마크를 쉽게 추가할 수 있습니다.
Sources
- undefinedmicrosoft/SkillOpt