pxpipe: 透過將文本渲染為圖像來減少 LLM 輸入 Token

pxpipe: 透過將文本渲染為圖像來減少 LLM 輸入 Token

pxpipe 是一個本地代理,旨在減少大型語言模型 (LLM) 的輸入 Token 成本,特別針對 Claude Code 和 Fable 5。透過將密集的文本上下文轉換為圖像,pxpipe 利用了具備視覺能力的模型在計費方式上的差異:圖像 Token 成本是由像素尺寸而非圖像中所包含的文本量決定的。

核心機制:文本轉圖像 Token 套利

pxpipe 透過攔截 /v1/messages 請求,並將符合條件的大量歷史紀錄與上下文重新寫入為緊湊的 PNG 圖像。該系統會識別「Token 密集型」內容——例如代碼、JSON 和工具輸出——這些內容的字元與 Token 的比例較低(大約每 1 個 Token 對應 1 個字元)。透過將這些文本渲染成 1928x1928 像素的圖像,pxpipe 可以將多達 92,000 個字元打包進單張圖像中,而該圖像的成本僅約 4,761 個視覺 Token。

這創造了顯著的 Token 減少量:與每 1.0 個文本 Token 對應 1.0 個字元相比,密集型內容在每張圖像 Token 中打包了約 3.1 個字元。在一個真實世界的案例中,48,000 個字元的系統提示詞 (system prompts) 和工具文件 (tool documentation)(大約 25,000 個文本 Token)被減少到了 2,700 個圖像 Token。

性能與成本節省

根據該項目的基準測試,Fable 5 的端到端成本減少通常在 59% 到 70% 之間。

端到端成本分析

  • 總帳單減少:在 13,709 次請求的快照中,總帳單從 $100 減少到了約 $41。
  • 工作負載依賴性:在 Token 密集型內容(代碼、JSON)上節省的成本最高,而在稀疏的英文散文 (prose) 上則會呈現負值,因為散文作為文本處理更有效率。
  • 比較:在一個將純 Claude 與 pxpipe 進行比較的演示中,會話總額從 $42.21(使用 96% 的上下文窗口)降至 $6.06。

任務品質與準確度

  • SWE-bench Lite:在純文本與 pxpipe 模式下,10/10 的實例均已解決。
  • SWE-bench Pro:在使用 pxpipe 時解決了 14/19,而關閉 pxpipe 時為 15/19。作者指出,唯一的差異是由於代理 (agentic) 變異而非壓縮損失造成的。
  • 新穎算術問題:Fable 5 在使用圖像上下文的情況下,在處理新穎算術問題時達到了 100% 的準確度,與基於文本的基準線持平。

限制與保真度風險

pxpipe 被描述為為「摘要層級 (gist tier)」的工具,而非無損存儲。由於無法可靠地逐字回憶精確的字串,因此它本質上是有損的。

逐字差距 (Verbatim Gap)

  • 靜默幻覺 (Silent Confabulation):主要的失敗模式並非錯誤訊息,而是一個看似合理但錯誤的值(例如,錯誤的人名或稍微不正確的十六進制字串)。
  • 十六進制回憶:在 12 個字元的十六進制字串測試中,Opus 4.8 的得分是 0/15,而 Fable 5 的得分是 13/15。
  • 安全措施:為了避免這些風險,作者建議將 ID、雜湊值 (hashes) 和金鑰 (secrets) 保留為文本。該工具提供了 options.keepSharp(block) 功能,可將特定區塊固定為文本。

技術實現

pxpipe 作為本地代理運行(透過 npx pxpipe-proxy),並可由 Claude Code 客戶端指向。它提供了一個即時儀表板,用於監控 Token 節省量與文本轉圖像的轉換。

壓縮目標

pxpipe 目標針對三種特定類型的輸入區塊:

  1. 大型 tool_result 內容:超過 ~6k 字元的檔案讀取、命令輸出與日誌。
  2. 較舊的摺疊歷史紀錄:對話中的舊回合會被轉為圖像,而最近的回合則保持為文本。
  3. 靜態系統提示詞與工具文件:這些會被渲染成密集的圖像頁面。

模型相容性

  • Fable 5:主要目標且為 100/100 的閱讀器。針對預設配置進行了優化。
  • GPT-5.6:支援,儘管工具定義會保留在原生 JSON 格式以確保可靠的工具調用 (tool-calling)。
  • Opus 4.8:預設為禁用,因為對渲染內容的誤讀率約為 7%。

社群洞察與反對意見

Hacker News 上的社群討論強調,這種技術本質上是一種「定價策略黑客 (pricing hack)」或 Token 計費中的漏洞。

"這看起來像是一種消耗資源的定價策略黑客,當這個漏洞被堵上時,OCR 的價格將會上升?"

其他用戶指出,過去曾嘗試過類似的技術來處理 OpenAI 模型,但導致了更高的完成 Token (completion token) 成本與更慢的性能。一些人也質疑這是否為資訊理論的高效利用,認為這更多是針對模型定價缺陷的權宜之計,而非數據表示的技術突破。

Sources