claw-compactor: 一個用於 LLM token 壓縮的 14 階段融合流水線，具備可逆檢索與 AST 感知代碼分析功能

它解決了什麼問題

Claw Compactor 透過在不破壞關鍵結構數據的情況下減少提示詞（prompt）所需的 token 數量，解決了大型語言模型（LLMs）的高成本與有限上下文窗口的問題。與通用型壓縮工具不同，它能防止代碼識別碼、JSON 鍵值（keys）以及日誌模式（log patterns）的遺失，而這些資訊在基於困惑度（perplexity）的壓縮方法中經常被刪除。

運作原理

該專案使用一個 14 階段的「融合流水線」（Fusion Pipeline），讓文本通過一系列專業的壓縮器。每個階段都是受控的（gated）；只有當內容類型（例如：代碼、JSON、日誌、diffs）與該階段的目的相符時，才會執行。

關鍵機制包括：

內容感知路由（Content-Aware Routing）：自動檢測語言與內容類型，以應用正確的壓縮邏輯。
AST 感知分析（AST-Aware Analysis）：使用 tree-sitter 在不縮短識別碼的情況下壓縮代碼。
可逆壓縮（Reversible Compression）：將原始內容儲存在以雜湊位址（hash-addressed）的 RewindStore 中，允許 LLM 在需要時透過標記 ID（marker ID）檢索完整的原始文本。
不可變數據流（Immutable Data Flow）：每個階段都會產生新的結果，而非原地修改數據，以確保穩定性。

對象是誰

它專為開發者設計，適用於需要將大量工作區上下文、日誌或結構化數據輸入模型，同時又要最小化延遲與 API 成本的 AI Agent 或 LLM 應用程式開發者。

重點特色

零推理成本：執行壓縮時不需要呼叫 LLM。
高保真度：與 LLMLingua-2 等工具相比，能維持更高的語義內容（ROUGE-L 分數）。
多功能階段：包含針對 base64 圖像、simhash 去重、JSON 採樣以及 git diff 折疊的專業處理器。
可擴展性：允許開發者向流水線中添加自定義的壓縮階段。

claw-compactor: 一個用於 LLM token 壓縮的 14 階段融合流水線，具備可逆檢索與 AST 感知代碼分析功能

claw-compactor: 一個用於 LLM token 壓縮的 14 階段融合流水線，具備可逆檢索與 AST 感知代碼分析功能

它解決了什麼問題

運作原理

對象是誰

重點特色

Sources