Mistral OCR 4 發佈說明"}],
Mistral OCR 4 發佈說明
Mistral OCR 4 是一款尖端的文檔智能模型,旨在從複雜的文檔中提取並結構化內容。它提供文檔的結構化表示——包括邊界框 (bounding boxes)、區塊分類和置信度分數——使其成為檢索增強生成 (RAG)、企業搜索和智能代理工作流 (agentic workflows) 的關鍵攝取組件。
結構化文檔表示
Mistral OCR 4 超越了簡單的文本提取,提供文檔的全面結構地圖。每個提取的區塊都附帶:
- Bounding Boxes: 定位文本以進行上下文高亮顯示和可靠的數據管道。
- Typed-Block Classification: 識別標題、表格、方程式和簽名等元素。
- Inline Confidence Scores: 按頁和按單詞生成,以促進人工介入驗證 (human-in-the-loop verification) 和脫敏處理。
這種結構化輸出允許下游系統不僅理解文本內容,還能理解文檔內每個元素的空間排列和功能角色。
性能與基準測試
Mistral OCR 4 在多個基準測試和人工評估中,表現優於領先的 AI 原生和企業級 OCR 系統。
人工偏好與公開基準測試
獨立標註員在測試中更偏好 OCR 4 而非所有測試的競爭對手,平均勝率為 72%。在公開基準測試中,它在 OlmOCRBench 上獲得了 85.20 的最高總分,並在 OmniDocBench 上獲得了 93.07。
多語言能力
OCR 4 支持 170 種語言,涵蓋 10 個語言組。它在稀有和低資源語言(包括 Georgian、Armenian 和 Kannada)中表現出顯著的性能提升,而競爭對手系統通常在這些語言中表現下降。
基準測試限制
Mistral 指出,聚合分數應被視為方向性指標。可能導致正確輸出被扣分的常見評分偏差 (scoring artifacts) 包括:
- Ground-truth errors: 基準測試中錯誤的參考標註。
- Equivalent math notation: 渲染結果相同但不同的 LaTeX 字串。
- Equation segmentation: 表達式被拆分為片段的方式存在差異。
- Multi-column reading order: 跨越分欄邊界的單詞拆分挑戰。
部署與集成選項
OCR 4 的設計旨在實現部署的靈活性,同時支持基於 API 的訪問和用於數據主權的自託管環境。
API 與 Document AI
開發者可以使用 OCR 4 API 的兩種主要模式:
- Pure Extraction Mode: 返回原始提取內容、邊界框和區塊類型。這對於高容量批量攝取和自定義下游邏輯非常理想。
- Document AI Mode: 在 OCR 引擎之上疊加額外功能。通過傳遞 JSON schema 或自定義提示詞 (prompt),用戶可以返回結構化 JSON (通過
mistral-small-2603) 或使用視覺語言模型對圖像進行標註。
基礎設施與定價
OCR 4 足夠緊湊,可以在單個容器中運行,允許企業客戶將數據保留在自己的基礎設施中。
定價結構:
- OCR 4 API: 每 1,000 頁 $4。
- Batch API: 每 1,000 頁 $2 (50% 折扣)。
- Document AI: 每 1,000 頁 $5。
推薦使用場景
Mistral OCR 4 已針對以下生產工作流進行了優化:
Semantic Chunking for RAG: 使用分類區塊作為檢索單元以提高準確性。
Agentic Workflows: 使代理能夠執行表單填充、發票處理和合規性檢查。
Enterprise Search: 作為自定義攝取和實體提取的數據源組件。
Structured Data Pipelines: 利用置信度分數來觸發高風險脫敏或財務提取的人工驗證。
OCR 4 與 Mistral Search Toolkit 集成,這是一個用於 RAG 和企業搜索攝取與評估的開源框架。