Workweave Router: 에이전트 시스템을 위한 스마트 모델 라우팅
Workweave Router: 에이전트 시스템을 위한 스마트 모델 라우팅
Workweave Router는 Anthropic, OpenAI, Gemini를 위한 드롭인 프록시로, 모든 요청에 대해 최적의 모델을 자동으로 선택합니다. Avengers-Pro 연구에서 파생된 클러스터 스코어러(cluster scorer)를 활용하여, 단순한 엔드포인트 업데이트 외에 애플리케이션 로직을 변경할 필요 없이 LLM 운영 비용을 40-70% 절감하는 것을 목표로 합니다.
클러스터 스코어링을 통한 자동 모델 선택
Workweave Router는 라우팅을 위해 "vibes-based" 프롬프팅에 의존하지 않습니다. 대신, 50ms 미만의 시간 내에 요청을 라우팅하기 위해 아주 작은 온박스 임베더(on-box embedder)를 사용합니다. 이 시스템은 성능과 효율성 사이의 균형을 최적화하는 Avengers-Pro 프레임워크를 기반으로 합니다.
RouterArena 리더보드에 따르면, Workweave Router는 Acc-Cost Arena에서 76.09의 점수로 1위를 차지하고 있습니다.
통합 및 도구 지원
라우터는 여러 API를 "말할" 수 있는 프록시 역할을 하여, 다양한 에이전트 시스템 및 IDE에 통합될 수 있습니다. 스트리밍, 도구(tools), 비전(vision) 기능을 여러 제공업체에 걸쳐 지원합니다:
- 지원되는 API: Anthropic Messages, OpenAI Chat Completions, Gemini native.
- OSS 모델 지원: OpenRouter 또는 기타 OpenAI-compatible 엔드포인트를 통해 DeepSeek, Kimi, GLM, Qwen, Llama, Mistral과 통합됩니다.
- 도구 통합:
- Claude Code:
make install-cc또는npx @workweave/router --claude를 통해 연결할 수 있습니다. - Codex (OpenAI CLI):
config.toml을 패치하여 라우터를 모델 제공업체로 사용합니다. - opencode: 구성 JSON에
provider.weave항목을 병합합니다. - Cursor: OpenAI Base URL을 라우터의 로컬 엔드포인트(
http://localhost:8080/v1)로 재지정하는 것을 지원합니다.
- Claude Code:
배포 및 아키텍처
사용자는 라우터를 두 가지 주요 방식으로 배포할 수 있습니다:
- Hosted:
npx @workweave/router를 사용하여 Claude Code 또는 Codex와 같은 특정 도구에 대한 설치 및 구성을 처리합니다. - Self-Hosted:
make full-setup을 통해 전체 스택(Postgres 데이터베이스 및 대시보드 포함)을 실행합니다. 이를 통해 제공업체 키를 로컬 머신에 암호화된 상태로 보관할 수 있습니다.
API 엔드포인트
| Endpoint | Format | Function |
|---|---|---|
POST /v1/messages |
Anthropic Messages | Routed request |
POST /v1/chat/completions |
OpenAI Chat Completions | Routed request |
POST /v1beta/models/:action |
Gemini generateContent |
Routed request |
POST /v1/route |
Custom | 상위 호출 없이 라우팅 결정 반환 |
GET /v1/models |
Anthropic | Passthrough |
관찰 가능성 및 로드맵
라우터는 기본적으로 OTLP 트레이스를 제공하여, 사용자가 내장된 대시보드(http://localhost:8080/ui/dashboard)를 통해 라우팅 결정을 모니터링하거나 Honeycomb, Datadog, Grafana와 같은 외부 도구와 통합할 수 있도록 합니다.
향후 개발 계획은 다음과 같습니다:
- Redis sliding window를 사용한 토큰 인식(token-aware) 속도 제한.
- 테넌트 계층 구조를 위한 하위 설치(sub-installations).
- 꼬리 지연 시간(tail latency)을 줄이기 위한 추측적 디스패치(speculative dispatch) 및 헤징(hedging).
커뮤니티 관점 및 기술적 트레이드오프
라우터가 상당한 비용 절감을 약속하지만, 일부 개발자들은 프롬프트-모델 관계 및 캐싱 효율성에 대해 우려를 제기했습니다:
"내가 사용하는 모델에 따라 이미 프롬프트 방식이 달라집니다. 내 어휘나 무엇인가에 기반하여 라우터가 올바른 모델로 라우팅할 것이라고 확신할 수 없습니다."
다른 사용자들은 실행 중간에 서로 다른 모델 간에 라우팅이 이루어질 경우 잠재적으로 더 많은 캐시 미스(cache misses)가 발생할 수 있으며, 이는 저렴한 모델이 제공하는 비용 절감 효과를 일부 상쇄할 수 있다고 지적했습니다:
"이 라우터들의 문제점은 캐시 미스가 더 많아질 것이라는 점입니다... 캐시를 사용하는 것이 매우 중요합니다. 개발할 때 이것이 어떻게 비용($$$) 측면에서 유리할가요?"
반대로, 일부는 이를 LLM 가격이 상승함에 따라 토큰 예산산을 관리하기 위한 필수적인 진보로 보고 있습니다:
"가격이 상승함에 따라 토큰 예산을 최적화하고 최대한 활용하기 위해 이러한 도구들을 더 많이 보게 될 것입니다."