semble

semble: それが何か、どんな問題を解決するか、そしてなぜ注目を集めているのか

解決する課題

Semble は AI エージェント向けに高速でトークン効率の高いコード検索を提供します。エージェントが巨大なコードベースを探索する際に、ファイル全体を読み込んだり、精度の低い grep 風検索に頼ったりして大量のトークンを消費してしまう問題を解決します。自然言語クエリに対して正確に関連するコードスニペットだけを取得できるため、従来の「grep して読み込む」方式に比べてトークン使用量を最大 98% 削減できます。

仕組み

Semble はハイブリッド検索システムを採用しており、GPU や API キーを必要とせず CPU のみで動作します。コードベースは tree-sitter を用いてコード構造を考慮したチャンクに分割され、以下の 2 つの補完的な検索手法が適用されます。

  1. セマンティック検索: 静的な Model2Vec 埋め込み(potion-code-16M モデル)を使用して意味的類似性を測ります。
  2. レキシカル検索: BM25 を用いて識別子や API 名の正確な一致を検索します。

これらの結果は Reciprocal Rank Fusion (RRF) によって融合され、さらにコード構造を考慮したランキングシグナル(定義を参照より優先、テストファイルやレガシー shim などのノイズをペナルティ化)で洗練されます。

対象ユーザー

AI コーディングエージェント(Claude Code、Cursor、Codex、OpenCode など)を構築・利用している開発者で、ローカルまたはリモートリポジトリへの即時・低コストアクセスをエージェントに提供したい方。

ハイライト

  • 極めて高速: リポジトリのインデックス作成は約 250ms、クエリ応答は CPU 上で約 1.5ms。
  • トークン効率: 関連チャンクのみを返すため、エージェントのコンテキストウィンドウ負荷を大幅に削減。
  • ゼロセットアップ: API キー、GPU、外部サービスは不要。
  • MCP サーバー対応: Model Context Protocol (MCP) サーバーとして統合でき、エージェントが検索をネイティブツールとして呼び出せる。
  • 柔軟なインデックス作成: ローカルパスと git URL の両方をサポートし、ファイル変更に基づく自動キャッシュ無効化を実装。

要約

CPU のみで動作する高速コード検索ライブラリで、ハイブリッドなセマンティック・レキシカル検索により正確なコードスニペットを取得し、トークン消費を最大 98% 削減します。

タイトル

semble: それが何か、どんな問題を解決するか、そしてなぜ注目を集めているのか

Sources