headroom: コンテキスト圧縮レイヤーで、コンテンツ認識型コンプレッサとローカルプロキシを通じて AI エージェントの LLM トークン使用量を削減

headroom: コンテキスト圧縮レイヤーで、コンテンツ認識型コンプレッサとローカルプロキシを通じて AI エージェントの LLM トークン使用量を削減

解決する課題

Headroom は LLM への送受信トークン数を削減し、AI エージェントのコストとレイテンシを大幅に低減します。エージェントワークロードにおける「無駄」―たとえば繰り返し出力されるツール結果、冗長なログ、RAG のチャンク、冗長なモデル前文など―を対象にし、モデルの回答精度を犠牲にしません。

仕組み

Headroom は AI エージェントと LLM プロバイダーの間に位置するローカル圧縮レイヤーとして機能します。ContentRouter がデータの種類を検出し、最適なコンプレッサを適用します:

  • SmartCrusher: JSON データ用。
  • CodeCompressor: 複数のプログラミング言語に対応した AST 認識圧縮。
  • Kompress-v2-base: 散文/テキスト用に特化した HuggingFace モデル。

CCR(可逆圧縮) を備えており、元のコンテンツをローカルにキャッシュし、必要に応じてツール呼び出しで LLM が完全版を取得できるようにします。また、CacheAligner によりプロンプトプレフィックスがプロバイダーの KV キャッシュに対して安定するよう調整します。出力コスト削減のため、冗長なモデル応答を削減する冗長性ステアリングと努力ルーティングを使用します。

対象ユーザー

  • Claude Code、Cursor、Aider、Cline などの AI コーディングエージェントを日常的に利用している開発者。
  • 複数の異なる AI エージェントを使用し、共有メモリストアを求めるチーム。
  • ライブラリまたはプロキシを通じて Python や TypeScript アプリにトークン圧縮を組み込みたいアプリケーション開発者。

ハイライト

  • 複数の統合モード: Python/TypeScript ライブラリ、ドロップインプロキシ、MCP サーバーとして利用可能。
  • エージェントラッピング: 人気エージェント向けのワンコマンドラッピング(例: headroom wrap claude)。
  • 出力削減: モデル前文をトリムし、定型的なステップでの「考える」コストを削減して出力トークンを節約。
  • クロスエージェントメモリ: 異なる LLM プロバイダー間で共有され、自動的に重複除去されたメモリ。
  • 失敗マイニング: headroom learn コマンドで失敗したセッションを分析し、エージェント設定ファイルに修正を書き込む。

Summary

AI エージェント向けのコンテキスト圧縮レイヤーで、コンテンツ認識型圧縮と出力整形によりトークン使用量を 60〜95% 削減し、精度を保ちます。

Title

headroom: コンテキスト圧縮レイヤーで、コンテンツ認識型コンプレッサとローカルプロキシを通じて AI エージェントの LLM トークン使用量を削減

Sources