pxpipe: 透過將文本渲染為圖像來減少 LLM 輸入 Token

pxpipe 是一個本地代理，旨在減少大型語言模型 (LLM) 的輸入 Token 成本，特別針對 Claude Code 和 Fable 5。透過將密集的文本上下文轉換為圖像，pxpipe 利用了具備視覺能力的模型在計費方式上的差異：圖像 Token 成本是由像素尺寸而非圖像中所包含的文本量決定的。

核心機制：文本轉圖像 Token 套利

pxpipe 透過攔截 /v1/messages 請求，並將符合條件的大量歷史紀錄與上下文重新寫入為緊湊的 PNG 圖像。該系統會識別「Token 密集型」內容——例如代碼、JSON 和工具輸出——這些內容的字元與 Token 的比例較低（大約每 1 個 Token 對應 1 個字元）。透過將這些文本渲染成 1928x1928 像素的圖像，pxpipe 可以將多達 92,000 個字元打包進單張圖像中，而該圖像的成本僅約 4,761 個視覺 Token。

這創造了顯著的 Token 減少量：與每 1.0 個文本 Token 對應 1.0 個字元相比，密集型內容在每張圖像 Token 中打包了約 3.1 個字元。在一個真實世界的案例中，48,000 個字元的系統提示詞 (system prompts) 和工具文件 (tool documentation)（大約 25,000 個文本 Token）被減少到了 2,700 個圖像 Token。

性能與成本節省

根據該項目的基準測試，Fable 5 的端到端成本減少通常在 59% 到 70% 之間。

端到端成本分析

總帳單減少：在 13,709 次請求的快照中，總帳單從 $100 減少到了約 $41。
工作負載依賴性：在 Token 密集型內容（代碼、JSON）上節省的成本最高，而在稀疏的英文散文 (prose) 上則會呈現負值，因為散文作為文本處理更有效率。
比較：在一個將純 Claude 與 pxpipe 進行比較的演示中，會話總額從 $42.21（使用 96% 的上下文窗口）降至 $6.06。

任務品質與準確度

SWE-bench Lite：在純文本與 pxpipe 模式下，10/10 的實例均已解決。
SWE-bench Pro：在使用 pxpipe 時解決了 14/19，而關閉 pxpipe 時為 15/19。作者指出，唯一的差異是由於代理 (agentic) 變異而非壓縮損失造成的。
新穎算術問題：Fable 5 在使用圖像上下文的情況下，在處理新穎算術問題時達到了 100% 的準確度，與基於文本的基準線持平。

限制與保真度風險

pxpipe 被描述為為「摘要層級 (gist tier)」的工具，而非無損存儲。由於無法可靠地逐字回憶精確的字串，因此它本質上是有損的。

逐字差距 (Verbatim Gap)

靜默幻覺 (Silent Confabulation)：主要的失敗模式並非錯誤訊息，而是一個看似合理但錯誤的值（例如，錯誤的人名或稍微不正確的十六進制字串)。
十六進制回憶：在 12 個字元的十六進制字串測試中，Opus 4.8 的得分是 0/15，而 Fable 5 的得分是 13/15。
安全措施：為了避免這些風險，作者建議將 ID、雜湊值 (hashes) 和金鑰 (secrets) 保留為文本。該工具提供了 options.keepSharp(block) 功能，可將特定區塊固定為文本。

技術實現

pxpipe 作為本地代理運行（透過 npx pxpipe-proxy），並可由 Claude Code 客戶端指向。它提供了一個即時儀表板，用於監控 Token 節省量與文本轉圖像的轉換。

壓縮目標

pxpipe 目標針對三種特定類型的輸入區塊：

大型 tool_result 內容：超過 ~6k 字元的檔案讀取、命令輸出與日誌。
較舊的摺疊歷史紀錄：對話中的舊回合會被轉為圖像，而最近的回合則保持為文本。
靜態系統提示詞與工具文件：這些會被渲染成密集的圖像頁面。

模型相容性

Fable 5：主要目標且為 100/100 的閱讀器。針對預設配置進行了優化。
GPT-5.6：支援，儘管工具定義會保留在原生 JSON 格式以確保可靠的工具調用 (tool-calling)。
Opus 4.8：預設為禁用，因為對渲染內容的誤讀率約為 7%。

社群洞察與反對意見

Hacker News 上的社群討論強調，這種技術本質上是一種「定價策略黑客 (pricing hack)」或 Token 計費中的漏洞。

"這看起來像是一種消耗資源的定價策略黑客，當這個漏洞被堵上時，OCR 的價格將會上升？"

其他用戶指出，過去曾嘗試過類似的技術來處理 OpenAI 模型，但導致了更高的完成 Token (completion token) 成本與更慢的性能。一些人也質疑這是否為資訊理論的高效利用，認為這更多是針對模型定價缺陷的權宜之計，而非數據表示的技術突破。

pxpipe: 透過將文本渲染為圖像來減少 LLM 輸入 Token

pxpipe: 透過將文本渲染為圖像來減少 LLM 輸入 Token

核心機制：文本轉圖像 Token 套利

性能與成本節省

端到端成本分析

任務品質與準確度

限制與保真度風險

逐字差距 (Verbatim Gap)

技術實現

壓縮目標

模型相容性

社群洞察與反對意見

Sources