headroom:一個透過內容感知壓縮器與本地代理,降低 AI 代理對 LLM 令牌使用的上下文壓縮層

headroom:一個透過內容感知壓縮器與本地代理,降低 AI 代理對 LLM 令牌使用的上下文壓縮層

它解決了什麼問題

Headroom 減少了傳送至 LLM 以及從 LLM 接收的令牌數量,顯著降低 AI 代理的成本與延遲。它針對代理工作負載中的「浪費」——例如重複的工具輸出、冗長的日誌、RAG 片段以及多餘的模型前置說明——在不犧牲模型答案準確性的前提下進行壓縮。

工作原理

Headroom 作為位於 AI 代理與 LLM 供應商之間的本地壓縮層。它使用 ContentRouter 來偵測資料類型,並套用最有效的壓縮器:

  • SmartCrusher:用於 JSON 資料。
  • CodeCompressor:支援多種程式語言的抽象語法樹感知壓縮。
  • Kompress-v2-base:專為散文/文字設計的 HuggingFace 模型。

它具備 CCR(可逆壓縮),會在本地快取原始內容,讓 LLM 在需要時可透過工具呼叫取得完整版本。另有 CacheAligner,確保提示前綴在供應商的 KV 快取中保持穩定。為了降低輸出成本,Headroom 會使用冗長度導向與工作量路由,裁剪不必要的模型回應。

目標使用者

  • 每日使用 AI 程式碼代理(如 Claude Code、Cursor、Aider 或 Cline)的開發者。
  • 使用多種不同 AI 代理且希望共享記憶庫的團隊。
  • 想要透過函式庫或代理將令牌壓縮整合至 Python 或 TypeScript 應用程式的開發者。

重點特色

  • 多種整合模式:提供 Python/TypeScript 函式庫、即插即用的代理或 MCP 伺服器。
  • 代理封裝:以單一指令封裝常見代理(例如 headroom wrap claude)。
  • 輸出縮減:裁剪模型前置說明,減少例行步驟的「思考」工作量,以節省輸出令牌。
  • 跨代理記憶:在不同 LLM 供應商之間共享、自動去重的記憶體。
  • 失敗挖掘headroom learn 指令會分析失敗的會話,並將修正寫入代理設定檔。

摘要: 一個為 AI 代理設計的上下文壓縮層,透過內容感知壓縮與輸出塑形將令牌使用量降低 60‑95%,同時保持答案的準確性。

標題: headroom:一個透過內容感知壓縮器與本地代理,降低 AI 代理對 LLM 令牌使用的上下文壓縮層

Sources