headroom：一個透過內容感知壓縮器與本地代理，降低 AI 代理對 LLM 令牌使用的上下文壓縮層

headroom：一個透過內容感知壓縮器與本地代理，降低 AI 代理對 LLM 令牌使用的上下文壓縮層

它解決了什麼問題

Headroom 減少了傳送至 LLM 以及從 LLM 接收的令牌數量，顯著降低 AI 代理的成本與延遲。它針對代理工作負載中的「浪費」——例如重複的工具輸出、冗長的日誌、RAG 片段以及多餘的模型前置說明——在不犧牲模型答案準確性的前提下進行壓縮。

工作原理

Headroom 作為位於 AI 代理與 LLM 供應商之間的本地壓縮層。它使用 ContentRouter 來偵測資料類型，並套用最有效的壓縮器：

SmartCrusher：用於 JSON 資料。
CodeCompressor：支援多種程式語言的抽象語法樹感知壓縮。
Kompress-v2-base：專為散文/文字設計的 HuggingFace 模型。

它具備 CCR（可逆壓縮），會在本地快取原始內容，讓 LLM 在需要時可透過工具呼叫取得完整版本。另有 CacheAligner，確保提示前綴在供應商的 KV 快取中保持穩定。為了降低輸出成本，Headroom 會使用冗長度導向與工作量路由，裁剪不必要的模型回應。

目標使用者

每日使用 AI 程式碼代理（如 Claude Code、Cursor、Aider 或 Cline）的開發者。
使用多種不同 AI 代理且希望共享記憶庫的團隊。
想要透過函式庫或代理將令牌壓縮整合至 Python 或 TypeScript 應用程式的開發者。

重點特色

多種整合模式：提供 Python/TypeScript 函式庫、即插即用的代理或 MCP 伺服器。
代理封裝：以單一指令封裝常見代理（例如 headroom wrap claude）。
輸出縮減：裁剪模型前置說明，減少例行步驟的「思考」工作量，以節省輸出令牌。
跨代理記憶：在不同 LLM 供應商之間共享、自動去重的記憶體。
失敗挖掘：headroom learn 指令會分析失敗的會話，並將修正寫入代理設定檔。

摘要：一個為 AI 代理設計的上下文壓縮層，透過內容感知壓縮與輸出塑形將令牌使用量降低 60‑95%，同時保持答案的準確性。

標題： headroom：一個透過內容感知壓縮器與本地代理，降低 AI 代理對 LLM 令牌使用的上下文壓縮層

Sources

undefinedheadroomlabs-ai/headroom