Mistral OCR 4 發佈說明

Mistral OCR 4 是一款尖端的文檔智能模型，旨在從複雜的文檔中提取並結構化內容。它提供文檔的結構化表示——包括邊界框 (bounding boxes)、區塊分類和置信度分數——使其成為檢索增強生成 (RAG)、企業搜索和智能代理工作流 (agentic workflows) 的關鍵攝取組件。

結構化文檔表示

Mistral OCR 4 超越了簡單的文本提取，提供文檔的全面結構地圖。每個提取的區塊都附帶：

Bounding Boxes: 定位文本以進行上下文高亮顯示和可靠的數據管道。
Typed-Block Classification: 識別標題、表格、方程式和簽名等元素。
Inline Confidence Scores: 按頁和按單詞生成，以促進人工介入驗證 (human-in-the-loop verification) 和脫敏處理。

這種結構化輸出允許下游系統不僅理解文本內容，還能理解文檔內每個元素的空間排列和功能角色。

性能與基準測試

Mistral OCR 4 在多個基準測試和人工評估中，表現優於領先的 AI 原生和企業級 OCR 系統。

人工偏好與公開基準測試

獨立標註員在測試中更偏好 OCR 4 而非所有測試的競爭對手，平均勝率為 72%。在公開基準測試中，它在 OlmOCRBench 上獲得了 85.20 的最高總分，並在 OmniDocBench 上獲得了 93.07。

多語言能力

OCR 4 支持 170 種語言，涵蓋 10 個語言組。它在稀有和低資源語言（包括 Georgian、Armenian 和 Kannada）中表現出顯著的性能提升，而競爭對手系統通常在這些語言中表現下降。

基準測試限制

Mistral 指出，聚合分數應被視為方向性指標。可能導致正確輸出被扣分的常見評分偏差 (scoring artifacts) 包括：

Ground-truth errors: 基準測試中錯誤的參考標註。
Equivalent math notation: 渲染結果相同但不同的 LaTeX 字串。
Equation segmentation: 表達式被拆分為片段的方式存在差異。
Multi-column reading order: 跨越分欄邊界的單詞拆分挑戰。

部署與集成選項

OCR 4 的設計旨在實現部署的靈活性，同時支持基於 API 的訪問和用於數據主權的自託管環境。

API 與 Document AI

開發者可以使用 OCR 4 API 的兩種主要模式：

Pure Extraction Mode: 返回原始提取內容、邊界框和區塊類型。這對於高容量批量攝取和自定義下游邏輯非常理想。
Document AI Mode: 在 OCR 引擎之上疊加額外功能。通過傳遞 JSON schema 或自定義提示詞 (prompt)，用戶可以返回結構化 JSON (通過 mistral-small-2603) 或使用視覺語言模型對圖像進行標註。

基礎設施與定價

OCR 4 足夠緊湊，可以在單個容器中運行，允許企業客戶將數據保留在自己的基礎設施中。

定價結構：

OCR 4 API: 每 1,000 頁 $4。
Batch API: 每 1,000 頁 $2 (50% 折扣)。
Document AI: 每 1,000 頁 $5。

Mistral OCR 4 發佈說明"}],