Workweave Router: 智能代理系统模型路由

Workweave Router: 智能代理系统模型路由

Workweave Router 是一个针对 Anthropic、OpenAI 和 Gemini 的即插即用代理,能够为每个请求自动选择最佳模型。通过利用源自 Avengers-Pro 研究的集群评分器(cluster scorer),该路由器的目标是在无需更改应用程序逻辑(仅需简单的端点更新)的情况下,将 LLM 运营成本降低 40-70%。

通过集群评分实现自动化模型选择

Workweave Router 不依赖于“基于感觉”的提示词进行路由;相反,它使用一个微小的本地嵌入器(on-box embedder)在 50ms 内完成请求路由。该系统基于 Avengers-Pro 框架,该框架针对性能与效率之间的平衡进行了优化。

根据 RouterArena 排行榜,Workweave Router 在 Acc-Cost Arena 中排名第一,得分为 76.09。

集成与工具支持

该路由器作为一个“支持”多种 API 的代理运行,使其能够集成到各种代理系统和 IDE 中。它支持多个提供商的流式传输、工具调用和视觉功能:

  • 支持的 API: Anthropic Messages、OpenAI Chat Completions 以及 Gemini 原生 API。
  • 开源模型支持: 通过 OpenRouter 或其他 OpenAI 兼容端点集成 DeepSeek、Kimi、GLM、Qwen、Llama 和 Mistral。
  • 工具集成:
    • Claude Code: 可以通过 make install-ccnpx @workweave/router --claude 进行连接。
    • Codex (OpenAI CLI): 通过修补 config.toml 将路由器作为模型提供商使用。
    • opencode:provider.weave 条目合并到配置 JSON 中。
    • Cursor: 支持覆盖 OpenAI Base URL 以指向路由器的本地端点 (http://localhost:8080/v1)。

部署与架构

用户可以通过两种主要方式部署路由器:

  1. 托管式: 使用 npx @workweave/router,它会处理针对 Claude Code 或 Codex 等特定工具的安装和配置。
  2. 自托管式: 通过 make full-setup 运行全栈(包括 Postgres 数据库和仪表板)。这使得提供商密钥可以保留在本地机器上,并进行静态加密。

API 端点

| Endpoint | Format | Function | | :--- | :--- | :--- | :--- | | POST /v1/messages | Anthropic Messages | 路由请求 | | POST /v1/chat/completions | OpenAI Chat Completions | 路由请求 | | POST /v1beta/models/:action | Gemini generateContent | 路由请求 | | POST /v1/route | Custom | 返回路由决策而不调用上游 | | GET /v1/models | Anthropic | 透传 |

可观测性与路线图

该路由器提供开箱即用的 OTLP 追踪,允许用户通过内置仪表板 http://localhost:8080/ui/dashboard 监控路由决策,或者通过集成外部工具如 Honeycomb、Datadog 或 Grafana。

未来开发计划包括:

  • 使用 Redis 滑动窗口进行感知 Token 的速率限制。
  • 针对租户层级的子安装。
  • 使用投机调度(speculative dispatch)和对冲(hedging)来降低尾部延迟。

社区观点与技术权衡

虽然路由器承诺显著的成本节约,但一些开发者对提示词与模型之间的关系以及缓存效率提出了疑虑:

"the way I prompt already changes based upon what model I am using. I'm not convinced it would route to the right model based on my diction or whatever."

其他用户指出,在执行过程中在不同模型之间切换路由可能会导致更多的缓存未命中,这可能会抵消廉价模型带来的部分成本节约:

"The thing I do not get with these routers is that you will have more cache misses... using the cache is crucial. How does this router translate to $$$ when developing?"

相反,一些人认为这是随着 LLM 定价上涨,管理 Token 预算的必然演进:

"As prices increase we will see more of these tools to optimise and make the best use of token budget"

Sources