Mistral OCR 4 发布说明

Mistral OCR 4 是一款最先进的文档智能模型，旨在从复杂文档中提取并结构化内容。它提供文档的结构化表示——包括边界框、块分类和置信分数——使其成为检索增强生成（RAG）、企业搜索和代理工作流的关键摄取组件。

结构化文档表示

Mistral OCR 4 超越了简单的文本提取，提供文档的完整结构映射。每个提取的块都伴随有：

这种结构化输出使下游系统不仅能理解文本内容，还能了解空间布局以及每个元素在文档中的功能角色。

Mistral OCR 4 在多个基准和人工评估中超越了领先的 AI 原生和企业 OCR 系统。

独立标注员在所有测试竞争对手中更倾向于 OCR 4，平均胜率为 72%。在公开基准中，它取得了 85.20（OlmOCRBench） 和 93.07（OmniDocBench） 的最高总体得分。

OCR 4 支持 170 种语言，覆盖 10 个语言组。它在稀有和低资源语言（包括格鲁吉亚语、亚美尼亚语和卡纳达语）上表现出显著的性能提升，而竞争系统通常会出现性能下降。

Mistral 指出，聚合得分应视为方向性参考。可能导致正确输出被扣分的常见计分缺陷包括：

OCR 4 设计灵活，支持 API 访问和自托管环境，以满足数据主权需求。

开发者可以通过两种主要模式使用 OCR 4 API：

纯提取模式：返回原始提取内容、边界框和块类型。适用于大批量批处理摄取和自定义下游逻辑。
Document AI 模式：在 OCR 引擎之上叠加额外能力。通过传入 JSON 架构或自定义提示，用户可以返回结构化 JSON（通过 mistral-small-2603）或使用视觉语言模型对图像进行标注。

OCR 4 足够轻量，可在单个容器中运行，帮助企业客户将数据保留在自有基础设施内。

定价结构：