pxpipe: 通过将文本渲染为图像来减少 LLM 输入 Token

pxpipe: 通过将文本渲染为图像来减少 LLM 输入 Token

pxpipe 是一个本地代理,旨在减少大语言模型 (LLM) 的输入 Token 成本,特别针对 Claude Code 和 Fable 5。通过将密集的文本上下文转换为图像,pxpipe 利用了具备视觉能力的模型在计费方式上的差异:图像 Token 成本由像素尺寸决定,而不是图像中包含的文本量。

核心机制:文本到图像的 Token 套利

pxpipe 通过拦截 /v1/messages 请求,并将符合条件的批量历史记录和上下文重写为紧凑的 PNG 图片。该系统会识别“Token 密集型”内容——例如代码、JSON 和工具输出——这些内容的字符与 Token 的比例较低(大约每 Token 1 个字符)。通过将这些文本渲染为 1928x1928 像素的图像,pxpipe 可以将多达 92,000 个字符打包进一张成本约为 4,761 个视觉 Token 的图像中。

这实现了显著的 Token 减少:与每 Token 1.0 个字符的密集内容相比,每图像 Token 约打包了 3.1 个字符。在一个实际案例中,48,000 个字符的系统提示词和工具文档(约 25,000 个文本 Token)被减少到了 2,700 个图像 Token。

性能与成本节约

根据项目的基准测试,Fable 5 的端到端成本降低通常在 59% 到 70% 之间。

端到端成本分析

  • 总账单减少:在对 13,709 个请求的快照分析中,总账单从 $100 减少到了约 $41。
  • 工作负载依赖性:在 Token 密集型内容(代码、JSON)上节省最为明显,而在稀疏的英文散文上效果较差,因为散文作为文本处理效率更高。
  • 对比:在将普通 Claude 与 pxpipe 进行对比的演示中,会话总费用从 $42.21(上下文窗口使用率为 96%)降至 $6.06。

任务质量与准确性

  • SWE-bench Lite:在纯文本和 pxpipe 模式下,10/10 的实例均成功解决。
  • SWE-bench Pro:开启 pxpipe 时解决了 14/19,而关闭 pxpipe 时为 15/19。作者指出,唯一的差异是由于智能体变动而非压缩损失。
  • 新颖算术题:Fable 5 在使用图像上下文进行新颖算术问题时达到了 100% 的准确率,与基于文本的基准线持平。

局限性与保真度风险

pxpipe 被描述为一种“摘要级”工具,而非无损存储。由于无法可靠地逐字召回精确字符串,它本质上是有损的。

逐字召回差距

  • 静默臆造:主要的失败模式不是报错,而是产生一个看似合理但错误的值(例如,错误的姓名或略微错误的十六进制字符串)。
  • 十六进制召回:在 12 位十六进制字符串测试中,Opus 4.8 得分为 0/15,而 Fable 5 得分为 13/15。

安全措施

  • 为了避免这些风险,作者建议将 ID、哈希值和密钥保留为文本。该工具提供了 options.keepSharp(block) 功能,可以将特定块固定为文本。

技术实现

pxpipe 以本地代理形式运行(通过 npx pxpipe-proxy),并可由 Claude Code 客户端指向。它提供了一个实时仪表板,用于监控 Token 节省情况和文本到图像的转换。

压缩目标

pxpipe 针对三种特定类型的输入块:

  1. 大型 tool_result 主体:超过约 6k 字符的文件读取、命令输出和日志。
  2. 较旧的折叠历史记录:对话中的旧轮次会被图像化,而最近的轮次保持为文本。
  3. 静态系统提示词和工具文档:这些会被渲染为密集的图像页面。

模型兼容性

  • Fable 5:主要目标模型,且阅读能力为 100/100。针对默认配置进行了优化。
  • GPT-5.6:支持,尽管工具定义被保留为原生 JSON 以确保可靠的工具调用。
  • Opus 4.8:由于对渲染内容的误读率约为 7%,默认情况下禁用。

社区洞察与反方观点

Hacker News 上的社区讨论强调,这种技术本质上是一种“定价策略套利”或 Token 计费中的漏洞。

"This seems like a pricing hack that burns resources, that when the loophole gets closed the price of OCR will have to rise?"

其他用户指出,过去也曾尝试过针对 OpenAI 模型使用类似技术,但导致了更高的补全 Token 成本和更慢的性能。一些人也质疑这是否是信息论的高效利用,认为这更多是对模型定价失败的一种规避手段,而非数据表示的技术突破。

Sources