pxpipe: テキストを画像としてレンダリングして LLM の入力トークンを削減する

pxpipe: テキストを画像としてレンダリングして LLM の入力トークンを削減する

pxpipe はローカルプロキシで、特に Claude Code と Fable 5 を対象に、大規模言語モデル(LLM)の入力トークンコストを削減するよう設計されています。密度の高いテキストコンテキストを画像に変換することで、ビジョン対応モデルがトークンを課金する方法のギャップを利用します。画像トークンのコストはピクセルサイズで固定され、画像内のテキスト量には依存しません。

コアメカニズム: テキスト→画像 トークン裁定取引

pxpipe は /v1/messages リクエストをインターセプトし、対象となる大量の履歴やコンテキストをコンパクトな PNG に書き換えて動作します。システムは「トークン密度が高い」コンテンツ(コード、JSON、ツール出力など)を検出し、文字数とトークン数の比率が低い(約 1 文字=1 トークン)場合に対象とします。このテキストを 1928×1928 ピクセルの画像にレンダリングすることで、1 枚の画像に最大約 92,000 文字を詰め込むことができ、約 4,761 ビジョントークンで処理できます。

この手法により、密度の高いコンテンツは画像トークン 1 枚あたり約 3.1 文字を詰め込めるのに対し、テキストトークンは 1 文字=1 トークンです。実際の例では、システムプロンプトとツールドキュメントの 48,000 文字(約 25,000 テキストトークン)が 2,700 画像トークンにまで削減されました。

パフォーマンスとコスト削減

プロジェクトのベンチマークによると、Fable 5 のエンドツーエンドコスト削減率は通常 59%〜70% です。

エンドツーエンド コスト分析

  • 総請求額削減: 13,709 件のリクエストのスナップショットで、総請求額は $100 から約 $41 に削減されました。
  • ワークロード依存性: コードや JSON などトークン密度が高いコンテンツでの削減効果が最大で、逆に英語の散文のようにテキストの方が効率的な場合はマイナスになります。
  • 比較: プレーンな Claude と pxpipe を比較したデモでは、セッション合計が $42.21(コンテキストウィンドウ使用率 96%)から $6.06 に減少しました。

タスク品質と精度

  • SWE-bench Lite: プレーンテキストと pxpipe の両方で 10/10 のインスタンスが解決されました。
  • SWE-bench Pro: pxpipe ON で 14/19、pxpipe OFF で 15/19 が解決。著者らは、唯一の差異は圧縮による損失ではなくエージェントのばらつきによるものと述べています。
  • 新しい算術: Fable 5 は画像コンテキストを使用して新規算術問題で 100% の正解率を達成し、テキストベースのベースラインと同等でした。

制限事項と忠実度リスク

pxpipe は「ギスト層」ツールと説明されており、ロスレスな保存手段ではありません。正確な文字列の逐語的再現が信頼できないため、本質的にロスィーです。

逐語的ギャップ

  • サイレント・コンファビュレーション: 主な失敗モードはエラーメッセージではなく、見た目は妥当だが誤った値(例: 間違った人物名やわずかに誤った十六進文字列)です。
  • 十六進リコール: 12 文字の十六進文字列テストでは、Opus 4.8 が 0/15、Fable 5 が 13/15 のスコアでした。
  • 安全策: これらのリスクを回避するため、著者は ID、ハッシュ、シークレットはテキストとして保持することを推奨しています。ツールは options.keepSharp(block) 機能を提供し、特定のブロックをテキストとして固定できます。

技術実装

pxpipe はローカルプロキシとして(npx pxpipe-proxy 経由)実行され、Claude Code クライアントから指すことができます。トークン節約とテキスト→画像変換をリアルタイムで監視できるダッシュボードを提供します。

圧縮対象

pxpipe は以下の 3 種類の入力ブロックを対象とします:

  1. 大きな tool_result 本文: ファイル読み取り、コマンド出力、約 6k 文字を超えるログ。
  2. 古い折りたたみ履歴: 会話の古いターンは画像化し、最近のターンはテキストのままにします。
  3. 静的システムプロンプトとツールドキュメント: これらは密度の高い画像ページとしてレンダリングされます。

モデル互換性

  • Fable 5: 主なターゲットであり、100/100 のリーダーです。デフォルト設定で最適化されています。
  • GPT-5.6: サポートされていますが、ツール定義は信頼性の高いツール呼び出しを確保するためにネイティブ JSON のままです。
  • Opus 4.8: デフォルトでは無効化されています。レンダリングコンテンツの誤読率が約 7% になるためです。

コミュニティの洞察と反論

Hacker News のコミュニティ議論では、この手法は本質的に「価格ハック」またはトークン計算の抜け穴であると指摘されています。

"これはリソースを消費する価格ハックのようなもので、抜け穴が閉じられたときに OCR の価格が上がるでしょうか?"

他のユーザーは、過去に OpenAI モデルでも同様の手法が試みられたが、完了トークンコストが増加し、パフォーマンスが低下したと述べています。また、情報理論的に効率的な利用かどうか疑問を呈し、モデルの価格設定の失敗に対する回避策であり、データ表現の技術的ブレークスルーではないと主張しています。


要約: pxpipe はローカルプロキシで、Claude Code の入力トークン使用量を 59〜70% 削減します。システムプロンプトやツールドキュメントなどの密度の高いテキストコンテキストをコンパクトな PNG 画像にレンダリングすることで実現します。

タイトル: pxpipe: テキストを画像としてレンダリングして LLM の入力トークンを削減する

Sources