Baidu Unlimited-OCR: One-Shot Long-Horizon Parsing

Baidu는 "one-shot long-horizon parsing"을 위해 설계된 모델인 Unlimited-OCR을 도입했습니다. 이 시스템은 Vision Language Models (VLMs)에서 긴 시퀀스를 처리할 때 일반적으로 발생하는 메모리 충돌 없이, 다중 페이지 PDF와 같은 방대한 문서를 단 한 번의 패스로 전사할 수 있게 합니다.

Solving the VRAM Bottleneck with Reference Sliding Window Attention

Unlimited-OCR은 긴 문서 OCR의 주요 기술적 장애물인 KV (Key-Value) 캐시의 선형적 증가 문제를 해결합니다. 표준 transformer 아키텍처에서는 모델이 100페이지 분량의 PDF를 전사할 때 이전에 생성된 모든 단어를 기억하려고 시도하며, 이로 인해 시스템의 VRAM이 고갈될 때까지 메모리 사용량이 $O(N)$으로 증가합니다.

To solve this, Unlimited-OCR은 **Reference Sliding Window Attention (R-SWA)**를 구현합니다. 이 아키텍처적 접근 방식은 모델의 초점을 두 개의 별도 경로로 나눕니다:

Global Reference: 모델은 원본 문서 이미지에 대한 완전하고 타협 없는 뷰를 유지하여 소스 자료의 시각적 컨텍스트를 절대 놓치지 않도록 보장합니다.
Local Generation: 모델은 자신이 생성한 텍스트에 대한 메모리를 좁고 이동하는 윈도우(예: 마지막 128개 단어)로 제한합니다. 이를 통해 오래된 생성 텍스트를 안전하게 "forget"하여 KV 캐시가 무한히 확장되는 것을 방지합니다.

이 메커니즘을 통해 모델은 정확한 전사를 위해 필요한 시각적 근거(visual grounding)를 유지하면서 사실상 무제한의 문서 길이를 처리할 수 있습니다.

Implementation and Inference Options

Unlimited-OCR은 DeepSeek-OCR 및 PaddleOCR의 토대 위에 구축되었습니다. 배포 및 추론을 위한 두 가지 주요 방법을 제공합니다:

Transformers-based Inference

NVIDIA GPU를 사용하는 사용자의 경우, Hugging Face의 transformers 라이브러리를 사용하여 모델을 실행할 수 있습니다. 환경은 Python 3.12.3 및 CUDA 12.9를 요구합니다. 주요 의존성 패키지는 torch==2.10.0 및 transformers==4.57.1입니다.

모델은 단일 이미지에 대해 두 가지 구성 모드를 지원합니다:

Gundam Mode: 특정 레이아웃에 최적화되었습니다 (base_size=1024, image_size=640, crop_mode=True).
Base Mode: 표준 파싱 (base_size=1024, image_size=1024, crop_mode=False).

SGLang Server Deployment

고처리량 생산 환경을 위해 Unlimited-OCR은 SGLang을 지원합니다. 이를 통해 모델을 OpenAI-compatible API를 통해 서비스할 수 있습니다. 서버는 반복을 관리하고 출력 품질을 개선하기 위해 커스텀 로짓 프로세서(DeepseekOCRNoRepeatNGramLogitProcessor)와 함께 실행할 수 있습니다.

Technical Requirements and Capabilities

Input Formats: 모델은 단일 이미지, 다중 이미지 시퀀스, 그리고 PDF(처리 전 PyMuPDF를 통해 이미지로 변환됨)를 지원합니다.
Context Length: 시스템은 32,768 토큰의 컨텍스트 길이를 갖도록 구성되었습니다.
Batch Processing: infer.py 스크립트는 이미지 디렉토리 또는 PDF 파일에 대한 동시 요청을 가능하게 하여 확장 가능한 배치 추론을을 가능하게 합니다.

Community Insights and Perspectives

메모리 관리 기술적 접근 방식은 찬사를 받고 있지만, 커뮤니티에서는 AI 기반 OCR의 실질적인 적용에 대해 몇 가지 비판적인 관점을 제시했습니다:

"My attempts at using AI to do OCR have always resulted in invented artifacts, which is not production feasible... words that are supposed to be in other languages being automatically translated to English, which ruins the effect."

다른 사용자들은 텍스트 OCR은 발전하고 있지만, 다른 전문 분야는 여전히 소외되어 있다고 언급했습니다. 한 사용자는 **Optical Music Recognition (OMR)**이 여전히 "greenfield" 상태에 있다고 강조했습니다. 현재 AI 모델은 음악 기보법의 복잡한 상징적 특성과 훈련 코퍼스에 충분히 풍부한 MusicXML과 같은 표준화된 디지털 형식이 부족하기 때문입니다.

또한, 일부 사용자는 OCR 엔진 자체를 재발명하는 것의 필요성에 의제문을 던졌습니다. 전통적인 비전 모델은 이미 안정적이고 신뢰할 수 있다고 주장하며, 이러한 새로운 모델의들의 실제 가려치는 값은 원시 전사 과정보다는 후처리 및 데이터 추출에 있다고 제안했습니다.n ext: "}

Baidu Unlimited-OCR: One-Shot Long-Horizon Parsing

Baidu Unlimited-OCR: One-Shot Long-Horizon Parsing

Solving the VRAM Bottleneck with Reference Sliding Window Attention

Implementation and Inference Options

Transformers-based Inference

SGLang Server Deployment

Technical Requirements and Capabilities

Community Insights and Perspectives

Sources