headroom: コンテキスト圧縮レイヤーで、コンテンツ認識型コンプレッサとローカルプロキシを通じて AI エージェントの LLM トークン使用量を削減
headroom: コンテキスト圧縮レイヤーで、コンテンツ認識型コンプレッサとローカルプロキシを通じて AI エージェントの LLM トークン使用量を削減
解決する課題
Headroom は LLM への送受信トークン数を削減し、AI エージェントのコストとレイテンシを大幅に低減します。エージェントワークロードにおける「無駄」―たとえば繰り返し出力されるツール結果、冗長なログ、RAG のチャンク、冗長なモデル前文など―を対象にし、モデルの回答精度を犠牲にしません。
仕組み
Headroom は AI エージェントと LLM プロバイダーの間に位置するローカル圧縮レイヤーとして機能します。ContentRouter がデータの種類を検出し、最適なコンプレッサを適用します:
- SmartCrusher: JSON データ用。
- CodeCompressor: 複数のプログラミング言語に対応した AST 認識圧縮。
- Kompress-v2-base: 散文/テキスト用に特化した HuggingFace モデル。
CCR(可逆圧縮) を備えており、元のコンテンツをローカルにキャッシュし、必要に応じてツール呼び出しで LLM が完全版を取得できるようにします。また、CacheAligner によりプロンプトプレフィックスがプロバイダーの KV キャッシュに対して安定するよう調整します。出力コスト削減のため、冗長なモデル応答を削減する冗長性ステアリングと努力ルーティングを使用します。
対象ユーザー
- Claude Code、Cursor、Aider、Cline などの AI コーディングエージェントを日常的に利用している開発者。
- 複数の異なる AI エージェントを使用し、共有メモリストアを求めるチーム。
- ライブラリまたはプロキシを通じて Python や TypeScript アプリにトークン圧縮を組み込みたいアプリケーション開発者。
ハイライト
- 複数の統合モード: Python/TypeScript ライブラリ、ドロップインプロキシ、MCP サーバーとして利用可能。
- エージェントラッピング: 人気エージェント向けのワンコマンドラッピング(例:
headroom wrap claude)。 - 出力削減: モデル前文をトリムし、定型的なステップでの「考える」コストを削減して出力トークンを節約。
- クロスエージェントメモリ: 異なる LLM プロバイダー間で共有され、自動的に重複除去されたメモリ。
- 失敗マイニング:
headroom learnコマンドで失敗したセッションを分析し、エージェント設定ファイルに修正を書き込む。
Summary
AI エージェント向けのコンテキスト圧縮レイヤーで、コンテンツ認識型圧縮と出力整形によりトークン使用量を 60〜95% 削減し、精度を保ちます。
Title
headroom: コンテキスト圧縮レイヤーで、コンテンツ認識型コンプレッサとローカルプロキシを通じて AI エージェントの LLM トークン使用量を削減
Sources
- undefinedheadroomlabs-ai/headroom