semble
semble: それが何か、どんな問題を解決するか、そしてなぜ注目を集めているのか
解決する課題
Semble は AI エージェント向けに高速でトークン効率の高いコード検索を提供します。エージェントが巨大なコードベースを探索する際に、ファイル全体を読み込んだり、精度の低い grep 風検索に頼ったりして大量のトークンを消費してしまう問題を解決します。自然言語クエリに対して正確に関連するコードスニペットだけを取得できるため、従来の「grep して読み込む」方式に比べてトークン使用量を最大 98% 削減できます。
仕組み
Semble はハイブリッド検索システムを採用しており、GPU や API キーを必要とせず CPU のみで動作します。コードベースは tree-sitter を用いてコード構造を考慮したチャンクに分割され、以下の 2 つの補完的な検索手法が適用されます。
- セマンティック検索: 静的な
Model2Vec埋め込み(potion-code-16Mモデル)を使用して意味的類似性を測ります。 - レキシカル検索:
BM25を用いて識別子や API 名の正確な一致を検索します。
これらの結果は Reciprocal Rank Fusion (RRF) によって融合され、さらにコード構造を考慮したランキングシグナル(定義を参照より優先、テストファイルやレガシー shim などのノイズをペナルティ化)で洗練されます。
対象ユーザー
AI コーディングエージェント(Claude Code、Cursor、Codex、OpenCode など)を構築・利用している開発者で、ローカルまたはリモートリポジトリへの即時・低コストアクセスをエージェントに提供したい方。
ハイライト
- 極めて高速: リポジトリのインデックス作成は約 250ms、クエリ応答は CPU 上で約 1.5ms。
- トークン効率: 関連チャンクのみを返すため、エージェントのコンテキストウィンドウ負荷を大幅に削減。
- ゼロセットアップ: API キー、GPU、外部サービスは不要。
- MCP サーバー対応: Model Context Protocol (MCP) サーバーとして統合でき、エージェントが検索をネイティブツールとして呼び出せる。
- 柔軟なインデックス作成: ローカルパスと git URL の両方をサポートし、ファイル変更に基づく自動キャッシュ無効化を実装。
要約
CPU のみで動作する高速コード検索ライブラリで、ハイブリッドなセマンティック・レキシカル検索により正確なコードスニペットを取得し、トークン消費を最大 98% 削減します。
タイトル
semble: それが何か、どんな問題を解決するか、そしてなぜ注目を集めているのか
Sources
- undefinedMinishLab/semble