claw-compactor: 一个用于 LLM token 压缩的 14 阶段融合流水线，具备可逆检索和 AST 感知代码分析功能

它解决了什么问题

Claw Compactor 通过在不破坏关键结构化数据的情况下减少 prompt 所需的 token 数量，解决了大语言模型 (LLMs) 的高成本和有限的上下文窗口问题。与通用压缩器不同，它能防止代码标识符、JSON 键和日志模式的丢失，而这些内容通常会被基于 perplexity 的压缩方法删除。

工作原理

该项目使用了一个 14 阶段的“融合流水线 (Fusion Pipeline)”，文本会通过一系列专门的压缩器。每个阶段都是受控的；只有当内容类型（例如：代码、JSON、日志、diffs）与该阶段的目的匹配时，它才会运行。

关键机制包括：

内容感知路由 (Content-Aware Routing)：自动检测语言和内容类型，以应用正确的压缩逻辑。
AST 感知分析 (AST-Aware Analysis)：使用 tree-sitter 在不缩短标识符的情况下压缩代码。
可逆压缩 (Reversible Compression)：将原始内容存储在基于哈希寻址的 RewindStore 中，允许 LLM 在需要时通过标记 ID 检索完整的原始文本。
不可变数据流 (Immutable Data Flow)：每个阶段都会产生一个新结果，而不是原地修改数据，从而确保稳定性。

适用人群

它专为构建 AI agent 或 LLM 应用的开发者设计，这些应用需要向模型输入大量的工程上下文、日志或结构化数据，同时又要最大限度地降低延迟和 API 成本。

亮点

零推理成本：执行压缩无需调用 LLM。
高保真度：与 LLMLingua-2 等工具相比，保持了更高的语义内容 (ROUGE-L 分数)。
多功能阶段：包括针对 base64 图像、simhash 去重、JSON 采样和 git diff 折叠的专门处理器。
可扩展性：允许开发者向流水线中添加自定义压缩阶段。

claw-compactor: 一个用于 LLM token 压缩的 14 阶段融合流水线，具备可逆检索和 AST 感知代码分析功能

claw-compactor: 一个用于 LLM token 压缩的 14 阶段融合流水线，具备可逆检索和 AST 感知代码分析功能

它解决了什么问题

工作原理

适用人群

亮点

Sources