Workweave Router: 代理型系統的智慧模型路由
Workweave Router: 代理型系統的智慧模型路由
Workweave Router 是一個可直接替換的代理伺服器,支援 Anthropic、OpenAI 與 Gemini,能為每個請求自動選擇最佳模型。透過利用源自 Avengers-Pro 研究的集群評分器(cluster scorer),該路由器旨在將 LLM 營運成本降低 40-70%,且除了簡單的端點更新外,無需更改應用程式邏輯。
透過集群評分進行自動化模型選擇
Workweave Router 不依賴「基於感覺」的提示詞進行路由;相反地,它使用一個微型的本地嵌入模型(on-box embedder)在 50ms 以內完成請求路由。此系統基於 Avengers-Pro 框架,該框架針對效能與效率之間的平衡進行了優化。
根據 RouterArena 排行榜,Workweave Router 在 Acc-Cost Arena 中排名第 1,得分為 76.09。
整合與工具支援
該路由器作為一個能「對話」多種 API 的代理伺服器,使其能夠整合到各種代理型系統(agentic systems)與 IDE 中。它支援串流、工具(tools)以及多個供應商的視覺功能:
- 支援的 API: Anthropic Messages、OpenAI Chat Completions 以及 Gemini native。
- 開源模型支援: 透過 OpenRouter 或其他與 OpenAI 相容的端點,整合了 DeepSeek、Kimi、GLM、Qwen、Llama 與 Mistral。
- 工具整合:
- Claude Code: 可透過
make install-cc或npx @workweave/router --claude進行連接。 - Codex (OpenAI CLI): 修改
config.toml以將路由器作為模型供應商。 - opencode: 將
provider.weave條目合併到配置 JSON 中。 - Cursor: 支援覆蓋 OpenAI Base URL 以指向路由器的本地端點 (
http://localhost:8080/v1)。
- Claude Code: 可透過
部署與架構
使用者可以透過兩種主要方式部署路由器:
- 託管式: 使用
npx @workweave/router,這會處理特定工具(如 Claude Code 或 Codex)的安裝與配置。 - 自託管: 透過
make full-setup執行完整堆疊(包括 Postgres 資料庫與儀表板),這能讓供應商金鑰保留在本地機器上並進行靜態加密。
API 端點
| Endpoint | Format | Function |
|---|---|---|
POST /v1/messages |
Anthropic Messages | 路由請求 |
POST /v1/chat/completions |
OpenAI Chat Completions | 路由請求 |
POST /v1beta/models/:action |
Gemini generateContent |
路由請求 |
POST /v1/route |
Custom | 回傳路由決策而不呼叫上游 |
GET /v1/models |
Anthropic | 透傳 (Passthrough) |
可觀測性與發展藍圖
該路由器提供開箱即用的 OTLP 追蹤,允許使用者透過內建儀表板 http://localhost:8080/ui/dashboard 監控路由決策,或透過整合外部工具如 Honeycomb、Datadog 或 Grafana。
未來發展包括:
- 使用 Redis 滑動窗口進行具備 Token 感知能力的速率限制。
- 針對租戶層級結構的子安裝功能。
- 使用投機式分派(speculative dispatch)與對沖(hedging)來降低尾部延遲。
社群觀點與技術權衡
雖然路由器承諾顯著的成本節省,但一些開發者對提示詞與模型之間的關係以及快取效率提出了疑慮:
"the way I prompt already changes based upon what model I am using. I'm not convinced it would route to the right model based on my diction or whatever."
其他使用者指出,在執行過程中於不同模型之間切換路由可能會導致更多的快取缺失(cache misses),這可能會抵消廉價模型所提供的部分成本節約:
"The thing I do not get with these routers is that you will have more cache misses... using the cache is crucial. How does this router translate to $$$ when developing?"
相反地,有些開發者認為,這是在 LLM 定價上漲時,管理 Token 預算的一種必要演進:
"As prices increase we will see more of these tools to optimise and make the best use of token budget"