Mistral OCR 4 發佈說明"}],

Mistral OCR 4 發佈說明

Mistral OCR 4 是一款尖端的文檔智能模型,旨在從複雜的文檔中提取並結構化內容。它提供文檔的結構化表示——包括邊界框 (bounding boxes)、區塊分類和置信度分數——使其成為檢索增強生成 (RAG)、企業搜索和智能代理工作流 (agentic workflows) 的關鍵攝取組件。

結構化文檔表示

Mistral OCR 4 超越了簡單的文本提取,提供文檔的全面結構地圖。每個提取的區塊都附帶:

  • Bounding Boxes: 定位文本以進行上下文高亮顯示和可靠的數據管道。
  • Typed-Block Classification: 識別標題、表格、方程式和簽名等元素。
  • Inline Confidence Scores: 按頁和按單詞生成,以促進人工介入驗證 (human-in-the-loop verification) 和脫敏處理。

這種結構化輸出允許下游系統不僅理解文本內容,還能理解文檔內每個元素的空間排列和功能角色。

性能與基準測試

Mistral OCR 4 在多個基準測試和人工評估中,表現優於領先的 AI 原生和企業級 OCR 系統。

人工偏好與公開基準測試

獨立標註員在測試中更偏好 OCR 4 而非所有測試的競爭對手,平均勝率為 72%。在公開基準測試中,它在 OlmOCRBench 上獲得了 85.20 的最高總分,並在 OmniDocBench 上獲得了 93.07

多語言能力

OCR 4 支持 170 種語言,涵蓋 10 個語言組。它在稀有和低資源語言(包括 Georgian、Armenian 和 Kannada)中表現出顯著的性能提升,而競爭對手系統通常在這些語言中表現下降。

基準測試限制

Mistral 指出,聚合分數應被視為方向性指標。可能導致正確輸出被扣分的常見評分偏差 (scoring artifacts) 包括:

  • Ground-truth errors: 基準測試中錯誤的參考標註。
  • Equivalent math notation: 渲染結果相同但不同的 LaTeX 字串。
  • Equation segmentation: 表達式被拆分為片段的方式存在差異。
  • Multi-column reading order: 跨越分欄邊界的單詞拆分挑戰。

部署與集成選項

OCR 4 的設計旨在實現部署的靈活性,同時支持基於 API 的訪問和用於數據主權的自託管環境。

API 與 Document AI

開發者可以使用 OCR 4 API 的兩種主要模式:

  1. Pure Extraction Mode: 返回原始提取內容、邊界框和區塊類型。這對於高容量批量攝取和自定義下游邏輯非常理想。
  2. Document AI Mode: 在 OCR 引擎之上疊加額外功能。通過傳遞 JSON schema 或自定義提示詞 (prompt),用戶可以返回結構化 JSON (通過 mistral-small-2603) 或使用視覺語言模型對圖像進行標註。

基礎設施與定價

OCR 4 足夠緊湊,可以在單個容器中運行,允許企業客戶將數據保留在自己的基礎設施中。

定價結構:

  • OCR 4 API: 每 1,000 頁 $4。
  • Batch API: 每 1,000 頁 $2 (50% 折扣)。
  • Document AI: 每 1,000 頁 $5。

推薦使用場景

Mistral OCR 4 已針對以下生產工作流進行了優化:

  • Semantic Chunking for RAG: 使用分類區塊作為檢索單元以提高準確性。

  • Agentic Workflows: 使代理能夠執行表單填充、發票處理和合規性檢查。

  • Enterprise Search: 作為自定義攝取和實體提取的數據源組件。

  • Structured Data Pipelines: 利用置信度分數來觸發高風險脫敏或財務提取的人工驗證。

OCR 4 與 Mistral Search Toolkit 集成,這是一個用於 RAG 和企業搜索攝取與評估的開源框架。

Sources