Workweave Router: 代理型系統的智慧模型路由

Workweave Router 是一個可直接替換的代理伺服器，支援 Anthropic、OpenAI 與 Gemini，能為每個請求自動選擇最佳模型。透過利用源自 Avengers-Pro 研究的集群評分器（cluster scorer），該路由器旨在將 LLM 營運成本降低 40-70%，且除了簡單的端點更新外，無需更改應用程式邏輯。

透過集群評分進行自動化模型選擇

Workweave Router 不依賴「基於感覺」的提示詞進行路由；相反地，它使用一個微型的本地嵌入模型（on-box embedder）在 50ms 以內完成請求路由。此系統基於 Avengers-Pro 框架，該框架針對效能與效率之間的平衡進行了優化。

根據 RouterArena 排行榜，Workweave Router 在 Acc-Cost Arena 中排名第 1，得分為 76.09。

整合與工具支援

該路由器作為一個能「對話」多種 API 的代理伺服器，使其能夠整合到各種代理型系統（agentic systems）與 IDE 中。它支援串流、工具（tools）以及多個供應商的視覺功能：

支援的 API： Anthropic Messages、OpenAI Chat Completions 以及 Gemini native。
開源模型支援： 透過 OpenRouter 或其他與 OpenAI 相容的端點，整合了 DeepSeek、Kimi、GLM、Qwen、Llama 與 Mistral。
工具整合：
- Claude Code： 可透過 make install-cc 或 npx @workweave/router --claude 進行連接。
- Codex (OpenAI CLI)： 修改 config.toml 以將路由器作為模型供應商。
- opencode： 將 provider.weave 條目合併到配置 JSON 中。
- Cursor： 支援覆蓋 OpenAI Base URL 以指向路由器的本地端點 (http://localhost:8080/v1)。

部署與架構

使用者可以透過兩種主要方式部署路由器：

託管式： 使用 npx @workweave/router，這會處理特定工具（如 Claude Code 或 Codex）的安裝與配置。
自託管： 透過 make full-setup 執行完整堆疊（包括 Postgres 資料庫與儀表板），這能讓供應商金鑰保留在本地機器上並進行靜態加密。

API 端點

Endpoint	Format	Function
`POST /v1/messages`	Anthropic Messages	路由請求
`POST /v1/chat/completions`	OpenAI Chat Completions	路由請求
`POST /v1beta/models/:action`	Gemini `generateContent`	路由請求
`POST /v1/route`	Custom	回傳路由決策而不呼叫上游
`GET /v1/models`	Anthropic	透傳 (Passthrough)

可觀測性與發展藍圖

該路由器提供開箱即用的 OTLP 追蹤，允許使用者透過內建儀表板 http://localhost:8080/ui/dashboard 監控路由決策，或透過整合外部工具如 Honeycomb、Datadog 或 Grafana。

未來發展包括：

使用 Redis 滑動窗口進行具備 Token 感知能力的速率限制。
針對租戶層級結構的子安裝功能。
使用投機式分派（speculative dispatch）與對沖（hedging）來降低尾部延遲。

社群觀點與技術權衡

雖然路由器承諾顯著的成本節省，但一些開發者對提示詞與模型之間的關係以及快取效率提出了疑慮：

"the way I prompt already changes based upon what model I am using. I'm not convinced it would route to the right model based on my diction or whatever."

其他使用者指出，在執行過程中於不同模型之間切換路由可能會導致更多的快取缺失（cache misses），這可能會抵消廉價模型所提供的部分成本節約：

"The thing I do not get with these routers is that you will have more cache misses... using the cache is crucial. How does this router translate to $$$ when developing?"

相反地，有些開發者認為，這是在 LLM 定價上漲時，管理 Token 預算的一種必要演進：

"As prices increase we will see more of these tools to optimise and make the best use of token budget"

Workweave Router: 代理型系統的智慧模型路由

Workweave Router: 代理型系統的智慧模型路由

透過集群評分進行自動化模型選擇

整合與工具支援

部署與架構

API 端點

可觀測性與發展藍圖

社群觀點與技術權衡

Sources