Baidu Unlimited-OCR: One-Shot Long-Horizon Parsing

Baiduは、「one-shot long-horizon parsing」のために設計されたモデルであるUnlimited-OCRを導入しました。このシステムは、Vision Language Models (VLMs) で長いシーケンスを処理する際に通常発生するメモリ不足によるクラッシュを回避しながら、マルチページPDFなどの広範なドキュメントを一度のパスで転写することを可能にします。

Solving the VRAM Bottleneck with Reference Sliding Window Attention

Unlimited-OCRは、長文ドキュメントOCRにおける主要な技術的障害である、KV (Key-Value) キャッシュの線形的な増加に対処します。標準的なtransformerアーキテクチャでは、モデルが100ページのPDFを転写する際、以前に生成されたすべての単語を記憶しようとするため、システムがVRAMを使い果たすまでメモリ使用量が $O(N)$ で増加します。

To solve this, Unlimited-OCRは**Reference Sliding Window Attention (R-SWA)**を実装しています。このアーキテクチャ的アプローチは、モデルの焦点を2つの異なるパスに分割します：

Global Reference: モデルは元のドキュメント画像の完全で妥協のないビューを維持し、ソース資料の視覚的なコンテキストを失わないようにします。
Local Generation: モデルは、自身が生成したテキストのメモリを、狭い移動窓（例：直近の128単語）に制限します。これにより、古い生成テキストを安全に「忘れる」ことができ、KVキャッシュが無限に拡大することを防ぎます。

このメカニズムにより、モデルは正確な転写に必要な視覚的なグラウンディングを維持しながら、実質的に無制限のドキュメント長を処理することが可能になります。

Implementation and Inference Options

Unlimited-OCRは、DeepSeek-OCRとPaddleOCRの基盤の上に構築されています。デプロイメントと推論には、主に2つの方法を提供します：

Transformers-based Inference

NVIDIA GPUを使用するユーザー向けに、モデルはHugging Faceのtransformersライブラリを使用して実行できます。環境にはPython 3.12.3とCUDA 12.9が必要です。主な依存関係はtorch==2.10.0とtransformers==4.57.1です。

モデルは、単一画像に対する2つの設定モードをサポートしています：

Gundam Mode: 特定のレイアウトに最適化されています (base_size=1024, image_size=640, crop_mode=True)。
Base Mode: 標準的な解析 (base_size=1024, image_size=1024, crop_mode=False)。

SGLang Server Deployment

高スループットなプロダクション環境向けに、Unlimited-OCRはSGLangをサポートしています。これにより、モデルをOpenAI互換のAPI経由で提供することが可能になります。サーバーは、繰り返しを管理し出力品質を向上させるために、カスタムlogit processor (DeepseekOCRNoRepeatNGramLogitProcessor) を使用して起動できます。

Technical Requirements and Capabilities

Input Formats: モデルは、単一画像、マルチイメージシーケンス、およびPDF（処理前にPyMuPDFを介して画像に変換されます）をサポートしています。
Context Length: システムは32,768トークンのコンテキスト長に設定されています。
Batch Processing: infer.pyスクリプトは、画像ディレクトリまたはPDFファイルに対する同時リクエストを可能にし、スケーラブルなバッチ推論を可能にします。

Community Insights and Perspectives

メモリ管理への技術的アプローチは称賛されていますが、コミュニティティはAI駆動型OCRの実際的な適用に関するいくつかの重要な点について疑問を提起しています：

"My attempts at using AI to do OCR have always resulted in invented artifacts, which is not production feasible... words that are supposed to be in other languages being automatically translated to English, which ruins the effect."

他のユーザーは、テキストOCRは進歩しているものの、他の専門分野は依然として十分なサービスを受けていないと指摘しています。あるユーザーは、**Optical Music Recognition (OMR)**は依然として「greenfield」状態であると強調しました。これは、現在のAIモデルが音楽記譜法の複雑な記号的性質や、MusicXMLのような十分に豊かなトレーニングコーパスのための標準化されたデジタル形式の不足により、音楽記譜法の解析には苦戦しているためです。

Additionally、一部のユーザーは、OCRエンジン自体の再発明の必要性に疑問を疑問を提起しています。従来のビジョンモデルはすでに安定しており信頼できるため、これら新しいモデルの真の価値は、生の転写プロセスではなく、後処理やデータ抽出にこそあると示唆しています。

Baidu Unlimited-OCR: One-Shot Long-Horizon Parsing

Baidu Unlimited-OCR: One-Shot Long-Horizon Parsing

Solving the VRAM Bottleneck with Reference Sliding Window Attention

Implementation and Inference Options

Transformers-based Inference

SGLang Server Deployment

Technical Requirements and Capabilities

Community Insights and Perspectives

Sources