Workweave Router: 代理型系統的智慧模型路由

Workweave Router: 代理型系統的智慧模型路由

Workweave Router 是一個可直接替換的代理伺服器,支援 Anthropic、OpenAI 與 Gemini,能為每個請求自動選擇最佳模型。透過利用源自 Avengers-Pro 研究的集群評分器(cluster scorer),該路由器旨在將 LLM 營運成本降低 40-70%,且除了簡單的端點更新外,無需更改應用程式邏輯。

透過集群評分進行自動化模型選擇

Workweave Router 不依賴「基於感覺」的提示詞進行路由;相反地,它使用一個微型的本地嵌入模型(on-box embedder)在 50ms 以內完成請求路由。此系統基於 Avengers-Pro 框架,該框架針對效能與效率之間的平衡進行了優化。

根據 RouterArena 排行榜,Workweave Router 在 Acc-Cost Arena 中排名第 1,得分為 76.09。

整合與工具支援

該路由器作為一個能「對話」多種 API 的代理伺服器,使其能夠整合到各種代理型系統(agentic systems)與 IDE 中。它支援串流、工具(tools)以及多個供應商的視覺功能:

  • 支援的 API: Anthropic Messages、OpenAI Chat Completions 以及 Gemini native。
  • 開源模型支援: 透過 OpenRouter 或其他與 OpenAI 相容的端點,整合了 DeepSeek、Kimi、GLM、Qwen、Llama 與 Mistral。
  • 工具整合:
    • Claude Code: 可透過 make install-ccnpx @workweave/router --claude 進行連接。
    • Codex (OpenAI CLI): 修改 config.toml 以將路由器作為模型供應商。
    • opencode:provider.weave 條目合併到配置 JSON 中。
    • Cursor: 支援覆蓋 OpenAI Base URL 以指向路由器的本地端點 (http://localhost:8080/v1)。

部署與架構

使用者可以透過兩種主要方式部署路由器:

  1. 託管式: 使用 npx @workweave/router,這會處理特定工具(如 Claude Code 或 Codex)的安裝與配置。
  2. 自託管: 透過 make full-setup 執行完整堆疊(包括 Postgres 資料庫與儀表板),這能讓供應商金鑰保留在本地機器上並進行靜態加密。

API 端點

Endpoint Format Function
POST /v1/messages Anthropic Messages 路由請求
POST /v1/chat/completions OpenAI Chat Completions 路由請求
POST /v1beta/models/:action Gemini generateContent 路由請求
POST /v1/route Custom 回傳路由決策而不呼叫上游
GET /v1/models Anthropic 透傳 (Passthrough)

可觀測性與發展藍圖

該路由器提供開箱即用的 OTLP 追蹤,允許使用者透過內建儀表板 http://localhost:8080/ui/dashboard 監控路由決策,或透過整合外部工具如 Honeycomb、Datadog 或 Grafana。

未來發展包括:

  • 使用 Redis 滑動窗口進行具備 Token 感知能力的速率限制。
  • 針對租戶層級結構的子安裝功能。
  • 使用投機式分派(speculative dispatch)與對沖(hedging)來降低尾部延遲。

社群觀點與技術權衡

雖然路由器承諾顯著的成本節省,但一些開發者對提示詞與模型之間的關係以及快取效率提出了疑慮:

"the way I prompt already changes based upon what model I am using. I'm not convinced it would route to the right model based on my diction or whatever."

其他使用者指出,在執行過程中於不同模型之間切換路由可能會導致更多的快取缺失(cache misses),這可能會抵消廉價模型所提供的部分成本節約:

"The thing I do not get with these routers is that you will have more cache misses... using the cache is crucial. How does this router translate to $$$ when developing?"

相反地,有些開發者認為,這是在 LLM 定價上漲時,管理 Token 預算的一種必要演進:

"As prices increase we will see more of these tools to optimise and make the best use of token budget"

Sources