pxpipe: 通过将文本渲染为图像来减少 LLM 输入 Token

pxpipe 是一个本地代理，旨在减少大语言模型 (LLM) 的输入 Token 成本，特别针对 Claude Code 和 Fable 5。通过将密集的文本上下文转换为图像，pxpipe 利用了具备视觉能力的模型在计费方式上的差异：图像 Token 成本由像素尺寸决定，而不是图像中包含的文本量。

核心机制：文本到图像的 Token 套利

pxpipe 通过拦截 /v1/messages 请求，并将符合条件的批量历史记录和上下文重写为紧凑的 PNG 图片。该系统会识别“Token 密集型”内容——例如代码、JSON 和工具输出——这些内容的字符与 Token 的比例较低（大约每 Token 1 个字符）。通过将这些文本渲染为 1928x1928 像素的图像，pxpipe 可以将多达 92,000 个字符打包进一张成本约为 4,761 个视觉 Token 的图像中。

这实现了显著的 Token 减少：与每 Token 1.0 个字符的密集内容相比，每图像 Token 约打包了 3.1 个字符。在一个实际案例中，48,000 个字符的系统提示词和工具文档（约 25,000 个文本 Token）被减少到了 2,700 个图像 Token。

性能与成本节约

根据项目的基准测试，Fable 5 的端到端成本降低通常在 59% 到 70% 之间。

端到端成本分析

总账单减少：在对 13,709 个请求的快照分析中，总账单从 $100 减少到了约 $41。
工作负载依赖性：在 Token 密集型内容（代码、JSON）上节省最为明显，而在稀疏的英文散文上效果较差，因为散文作为文本处理效率更高。
对比：在将普通 Claude 与 pxpipe 进行对比的演示中，会话总费用从 $42.21（上下文窗口使用率为 96%）降至 $6.06。

任务质量与准确性

SWE-bench Lite：在纯文本和 pxpipe 模式下，10/10 的实例均成功解决。
SWE-bench Pro：开启 pxpipe 时解决了 14/19，而关闭 pxpipe 时为 15/19。作者指出，唯一的差异是由于智能体变动而非压缩损失。
新颖算术题：Fable 5 在使用图像上下文进行新颖算术问题时达到了 100% 的准确率，与基于文本的基准线持平。

局限性与保真度风险

pxpipe 被描述为一种“摘要级”工具，而非无损存储。由于无法可靠地逐字召回精确字符串，它本质上是有损的。

逐字召回差距

静默臆造：主要的失败模式不是报错，而是产生一个看似合理但错误的值（例如，错误的姓名或略微错误的十六进制字符串）。
十六进制召回：在 12 位十六进制字符串测试中，Opus 4.8 得分为 0/15，而 Fable 5 得分为 13/15。

安全措施

为了避免这些风险，作者建议将 ID、哈希值和密钥保留为文本。该工具提供了 options.keepSharp(block) 功能，可以将特定块固定为文本。

技术实现

pxpipe 以本地代理形式运行（通过 npx pxpipe-proxy），并可由 Claude Code 客户端指向。它提供了一个实时仪表板，用于监控 Token 节省情况和文本到图像的转换。

压缩目标

pxpipe 针对三种特定类型的输入块：

大型 tool_result 主体：超过约 6k 字符的文件读取、命令输出和日志。
较旧的折叠历史记录：对话中的旧轮次会被图像化，而最近的轮次保持为文本。
静态系统提示词和工具文档：这些会被渲染为密集的图像页面。

模型兼容性

Fable 5：主要目标模型，且阅读能力为 100/100。针对默认配置进行了优化。
GPT-5.6：支持，尽管工具定义被保留为原生 JSON 以确保可靠的工具调用。
Opus 4.8：由于对渲染内容的误读率约为 7%，默认情况下禁用。

社区洞察与反方观点

Hacker News 上的社区讨论强调，这种技术本质上是一种“定价策略套利”或 Token 计费中的漏洞。

"This seems like a pricing hack that burns resources, that when the loophole gets closed the price of OCR will have to rise?"

其他用户指出，过去也曾尝试过针对 OpenAI 模型使用类似技术，但导致了更高的补全 Token 成本和更慢的性能。一些人也质疑这是否是信息论的高效利用，认为这更多是对模型定价失败的一种规避手段，而非数据表示的技术突破。

pxpipe: 通过将文本渲染为图像来减少 LLM 输入 Token

pxpipe: 通过将文本渲染为图像来减少 LLM 输入 Token

核心机制：文本到图像的 Token 套利

性能与成本节约

端到端成本分析

任务质量与准确性

局限性与保真度风险

逐字召回差距

安全措施

技术实现

压缩目标

模型兼容性

社区洞察与反方观点

Sources