PixelRAG

PixelRAG: それが何か、解決する問題、そして注目を集めている理由

解決する課題

PixelRAG は、従来のテキストベースの Retrieval‑Augmented Generation(RAG)において失われがちな視覚情報を補完します。文書をテキストのチャンクに分割すると、表やグラフ、インフォグラフィック、レイアウト構造といった重要な視覚要素がしばしば捨てられ、読取モデルがその視覚データに基づく質問に答えることができなくなります。PixelRAG は、文書の見た目に基づいて検索・取得できるようにし、完全な視覚コンテキストを保持します。

仕組み

文書をテキストに変換する代わりに、PixelRAG はウェブページ、PDF、画像をスクリーンショットタイルにレンダリングします。その後、特化した埋め込みモデル—LoRA でファインチューニングされた Qwen3-VL-Embedding—を用いてこれらの画像をベクトルに変換します。これらのベクトルは FAISS インデックスに保存され、クエリに基づいて最も関連性の高い視覚タイルを取得できるようになります。取得された画像は、読取モデルが直接解析して回答を導き出します。

対象ユーザー

このツールは、技術論文や複雑なウェブページのような視覚的にリッチな文書を扱う必要がある RAG パイプラインを構築する開発者や AI 研究者、そして Claude Code のユーザーで、エージェントに pixelbrowse プラグインを通じてウェブコンテンツを「見て」要約させたい人向けです。

ハイライト

  • ビジュアル検索: 文書セグメントをテキストではなく画像として取得し、表やチャートを保持します。
  • 事前構築インデックス: 8.28 百万ページの Wikipedia を対象としたホスト型 API とダウンロード可能な FAISS インデックスを提供します。
  • 多用途レンダリング: pixelshot を使用して URL や PDF をタイルにレンダリングできます。
  • エージェント統合: エージェントがページをスクリーンショットして直接読むことを可能にする Claude Code プラグイン(pixelbrowse)を含みます。
  • 柔軟なパイプライン: Linux(CUDA)または macOS(MPS)上でローカルに文書をチャンク化、埋め込み、インデックス化するモジュラー構成を提供します。

Sources