Workweave Router: 에이전트 시스템을 위한 스마트 모델 라우팅

Workweave Router는 Anthropic, OpenAI, Gemini를 위한 드롭인 프록시로, 모든 요청에 대해 최적의 모델을 자동으로 선택합니다. Avengers-Pro 연구에서 파생된 클러스터 스코어러(cluster scorer)를 활용하여, 단순한 엔드포인트 업데이트 외에 애플리케이션 로직을 변경할 필요 없이 LLM 운영 비용을 40-70% 절감하는 것을 목표로 합니다.

클러스터 스코어링을 통한 자동 모델 선택

Workweave Router는 라우팅을 위해 "vibes-based" 프롬프팅에 의존하지 않습니다. 대신, 50ms 미만의 시간 내에 요청을 라우팅하기 위해 아주 작은 온박스 임베더(on-box embedder)를 사용합니다. 이 시스템은 성능과 효율성 사이의 균형을 최적화하는 Avengers-Pro 프레임워크를 기반으로 합니다.

RouterArena 리더보드에 따르면, Workweave Router는 Acc-Cost Arena에서 76.09의 점수로 1위를 차지하고 있습니다.

통합 및 도구 지원

라우터는 여러 API를 "말할" 수 있는 프록시 역할을 하여, 다양한 에이전트 시스템 및 IDE에 통합될 수 있습니다. 스트리밍, 도구(tools), 비전(vision) 기능을 여러 제공업체에 걸쳐 지원합니다:

지원되는 API: Anthropic Messages, OpenAI Chat Completions, Gemini native.
OSS 모델 지원: OpenRouter 또는 기타 OpenAI-compatible 엔드포인트를 통해 DeepSeek, Kimi, GLM, Qwen, Llama, Mistral과 통합됩니다.
도구 통합:
- Claude Code: make install-cc 또는 npx @workweave/router --claude를 통해 연결할 수 있습니다.
- Codex (OpenAI CLI): config.toml을 패치하여 라우터를 모델 제공업체로 사용합니다.
- opencode: 구성 JSON에 provider.weave 항목을 병합합니다.
- Cursor: OpenAI Base URL을 라우터의 로컬 엔드포인트(http://localhost:8080/v1)로 재지정하는 것을 지원합니다.

배포 및 아키텍처

사용자는 라우터를 두 가지 주요 방식으로 배포할 수 있습니다:

Hosted: npx @workweave/router를 사용하여 Claude Code 또는 Codex와 같은 특정 도구에 대한 설치 및 구성을 처리합니다.
Self-Hosted: make full-setup을 통해 전체 스택(Postgres 데이터베이스 및 대시보드 포함)을 실행합니다. 이를 통해 제공업체 키를 로컬 머신에 암호화된 상태로 보관할 수 있습니다.

API 엔드포인트

Endpoint	Format	Function
`POST /v1/messages`	Anthropic Messages	Routed request
`POST /v1/chat/completions`	OpenAI Chat Completions	Routed request
`POST /v1beta/models/:action`	Gemini `generateContent`	Routed request
`POST /v1/route`	Custom	상위 호출 없이 라우팅 결정 반환
`GET /v1/models`	Anthropic	Passthrough

관찰 가능성 및 로드맵

라우터는 기본적으로 OTLP 트레이스를 제공하여, 사용자가 내장된 대시보드(http://localhost:8080/ui/dashboard)를 통해 라우팅 결정을 모니터링하거나 Honeycomb, Datadog, Grafana와 같은 외부 도구와 통합할 수 있도록 합니다.

향후 개발 계획은 다음과 같습니다:

Redis sliding window를 사용한 토큰 인식(token-aware) 속도 제한.
테넌트 계층 구조를 위한 하위 설치(sub-installations).
꼬리 지연 시간(tail latency)을 줄이기 위한 추측적 디스패치(speculative dispatch) 및 헤징(hedging).

커뮤니티 관점 및 기술적 트레이드오프

라우터가 상당한 비용 절감을 약속하지만, 일부 개발자들은 프롬프트-모델 관계 및 캐싱 효율성에 대해 우려를 제기했습니다:

"내가 사용하는 모델에 따라 이미 프롬프트 방식이 달라집니다. 내 어휘나 무엇인가에 기반하여 라우터가 올바른 모델로 라우팅할 것이라고 확신할 수 없습니다."

다른 사용자들은 실행 중간에 서로 다른 모델 간에 라우팅이 이루어질 경우 잠재적으로 더 많은 캐시 미스(cache misses)가 발생할 수 있으며, 이는 저렴한 모델이 제공하는 비용 절감 효과를 일부 상쇄할 수 있다고 지적했습니다:

"이 라우터들의 문제점은 캐시 미스가 더 많아질 것이라는 점입니다... 캐시를 사용하는 것이 매우 중요합니다. 개발할 때 이것이 어떻게 비용($$$) 측면에서 유리할가요?"

반대로, 일부는 이를 LLM 가격이 상승함에 따라 토큰 예산산을 관리하기 위한 필수적인 진보로 보고 있습니다:

"가격이 상승함에 따라 토큰 예산을 최적화하고 최대한 활용하기 위해 이러한 도구들을 더 많이 보게 될 것입니다."

Workweave Router: 에이전트 시스템을 위한 스마트 모델 라우팅

Workweave Router: 에이전트 시스템을 위한 스마트 모델 라우팅

클러스터 스코어링을 통한 자동 모델 선택

통합 및 도구 지원

배포 및 아키텍처

API 엔드포인트

관찰 가능성 및 로드맵

커뮤니티 관점 및 기술적 트레이드오프

Sources