Workweave Router: エージェンティック・システムのためのスマート・モデル・ルーティング

Workweave Router: エージェンティック・システムのためのスマート・モデル・ルーティング

Workweave Routerは、Anthropic、OpenAI、およびGemini向けのドロップイン・プロキシであり、すべてのリクエストに対して最適なモデルを自動的に選択します。Avengers-Proの研究から派生したクラスター・スコアラーを利用することで、このルーターは、単純なエンドポイントの更新以外にアプリケーション・ロジックを変更することなく、LLMの運用コストを40-70%削減することを目指しています。

クラスター・スコアリングによる自動モデル選択

Workweave Routerは、ルーティングのために「感覚的な」プロンプティングに依存するのではなく、代わりに非常に小さなオンボックス・エンベッダーを使用して、50ms未満でリクエストをルーティングします。このシステムは、パフォーマンスと効率性のバランスを最適化するAvengers-Proフレームワークに基づいています。

RouterArenaのリーダーボードによると、Workweave RouterはAcc-Cost Arenaでスコア76.09を記録し、第1位にランクされています。

統合とツール・サポート

このルーターは、複数のAPIを「話す」プロキシとして機能するため、さまざまなエージェンティック・システムやIDEに統合することが可能です。ストリーミング、ツール、およびビジョンを複数のプロバイダーにわたってサポートしています。

  • サポートされているAPI: Anthropic Messages、OpenAI Chat Completions、およびGemini native。
  • OSSモデルのサポート: OpenRouterまたはその他のOpenAI互換エンドポイントを介して、DeepSeek、Kimi、GLM、Qwen、Llama、およびMistralとの統合。
  • ツール統合:
    • Claude Code: make install-cc または npx @workweave/router --claude を介して接続可能です。
    • Codex (OpenAI CLI): config.toml をパッチして、ルーターをモデル・プロバイダーとして使用します。
    • opencode: provider.weave エントリを構成JSONにマージします。
    • Cursor: OpenAI Base URLをルーターのローカル・エンドポイント (http://localhost:8080/v1) にオーバーライドすることをサポートしています。

デプロイメントとアーキテクチャ

ユーザーは、主に以下の2つの方法でルーターをデプロイできます。

  1. Hosted: npx @workweave/router を使用する方法。これは、Claude CodeやCodexのような特定のツール向けのインストールと設定を処理します。
  2. Self-Hosted: make full-setup を介してフルスタック(Postgresデータベースとダッシュボードを含む)を実行する方法。これにより、プロバイダー・キーをローカルマシン上に暗号化された状態で保持できます。

APIエンドポイント

Endpoint Format Function
POST /v1/messages Anthropic Messages ルーティングされたリクエスト
POST /v1/chat/completions OpenAI Chat Completions ルーティングされたリクエスト
POST /v1beta/models/:action Gemini generateContent ルーティングされたリクエスト
POST /v1/route Custom アップストリームを呼び出さずにルーティング決定を返します
GET /v1/models Anthropic パススルー

観測可能性とロードマップ

このルーターは、標準でOTLPトレースを提供するため、ユーザーは組み込みのダッシュボード (http://localhost:8080/ui/dashboard) を通じてルーティング決定を監視したり、Honeycomb、Datadog、またはGrafanaといった外部ツールと統合したりすることができます。

今後の開発予定:

  • Redisスライディング・ウィンドウを使用したトークン認識型レート制限。
  • テナント階層のためのサブ・インストール。
  • テイル・レイテンシを削減するための投機的ディスパッチおよびヘッジング。

コミュニティの視点と技術的なトレードオフ

ルーターは大幅なコスト削減を約束しますが、一部の開発者は、プロンプトとモデルの関係、およびキャッシュ効率に関する懸念を raised しています。

"the way I prompt already changes based upon what model I am using. I'm not convinced it would route to the right model based on my diction or whatever."

他のユーザーは、実行中に異なるモデル間でルーティングを行うことが、キャッシュミスを増加させる可能性があり、それが安価なモデルによるコスト削減分を相殺してしまう可能性があると指摘しています。

"The thing I do not get with these routers is that you will have more cache misses... using the cache is crucial. How does this router translate to $$$ when developing?"

逆に、LLMの価格上昇に伴い、トークン・バジェットを管理するための必要な進化であると見る人もいます。

"As prices increase we will see more of these tools to optimise and make the best use of token budget"

Sources