claw-compactor: 一个用于 LLM token 压缩的 14 阶段融合流水线,具备可逆检索和 AST 感知代码分析功能

claw-compactor: 一个用于 LLM token 压缩的 14 阶段融合流水线,具备可逆检索和 AST 感知代码分析功能

它解决了什么问题

Claw Compactor 通过在不破坏关键结构化数据的情况下减少 prompt 所需的 token 数量,解决了大语言模型 (LLMs) 的高成本和有限的上下文窗口问题。与通用压缩器不同,它能防止代码标识符、JSON 键和日志模式的丢失,而这些内容通常会被基于 perplexity 的压缩方法删除。

工作原理

该项目使用了一个 14 阶段的“融合流水线 (Fusion Pipeline)”,文本会通过一系列专门的压缩器。每个阶段都是受控的;只有当内容类型(例如:代码、JSON、日志、diffs)与该阶段的目的匹配时,它才会运行。

关键机制包括:

  • 内容感知路由 (Content-Aware Routing):自动检测语言和内容类型,以应用正确的压缩逻辑。
  • AST 感知分析 (AST-Aware Analysis):使用 tree-sitter 在不缩短标识符的情况下压缩代码。
  • 可逆压缩 (Reversible Compression):将原始内容存储在基于哈希寻址的 RewindStore 中,允许 LLM 在需要时通过标记 ID 检索完整的原始文本。
  • 不可变数据流 (Immutable Data Flow):每个阶段都会产生一个新结果,而不是原地修改数据,从而确保稳定性。

适用人群

它专为构建 AI agent 或 LLM 应用的开发者设计,这些应用需要向模型输入大量的工程上下文、日志或结构化数据,同时又要最大限度地降低延迟和 API 成本。

亮点

  • 零推理成本:执行压缩无需调用 LLM。
  • 高保真度:与 LLMLingua-2 等工具相比,保持了更高的语义内容 (ROUGE-L 分数)。
  • 多功能阶段:包括针对 base64 图像、simhash 去重、JSON 采样和 git diff 折叠的专门处理器。
  • 可扩展性:允许开发者向流水线中添加自定义压缩阶段。

Sources