Mistral OCR 4 发布说明
Mistral OCR 4 发布说明
Mistral OCR 4 是一款最先进的文档智能模型,旨在从复杂文档中提取并结构化内容。它提供文档的结构化表示——包括边界框、块分类和置信分数——使其成为检索增强生成(RAG)、企业搜索和代理工作流的关键摄取组件。
结构化文档表示
Mistral OCR 4 超越了简单的文本提取,提供文档的完整结构映射。每个提取的块都伴随有:
- 边界框:定位文本以实现上下文高亮和可靠的数据管道。
- 类型块分类:识别标题、表格、公式、签名等元素。
- 行内置信分数:按页和按词生成,便于人机交互的验证和脱敏。
这种结构化输出使下游系统不仅能理解文本内容,还能了解空间布局以及每个元素在文档中的功能角色。
性能与基准
Mistral OCR 4 在多个基准和人工评估中超越了领先的 AI 原生和企业 OCR 系统。
人类偏好与公开基准
独立标注员在所有测试竞争对手中更倾向于 OCR 4,平均胜率为 72%。在公开基准中,它取得了 85.20(OlmOCRBench) 和 93.07(OmniDocBench) 的最高总体得分。
多语言能力
OCR 4 支持 170 种语言,覆盖 10 个语言组。它在稀有和低资源语言(包括格鲁吉亚语、亚美尼亚语和卡纳达语)上表现出显著的性能提升,而竞争系统通常会出现性能下降。
基准局限性
Mistral 指出,聚合得分应视为方向性参考。可能导致正确输出被扣分的常见计分缺陷包括:
- 真实标签错误:基准中的参考标注不正确。
- 等价数学表示:不同的 LaTeX 字符串渲染结果相同。
- 公式分割:表达式被拆分为片段的方式不同。
- 多列阅读顺序:跨列边界的单词分割带来的挑战。
部署与集成选项
OCR 4 设计灵活,支持 API 访问和自托管环境,以满足数据主权需求。
API 与 Document AI
开发者可以通过两种主要模式使用 OCR 4 API:
- 纯提取模式:返回原始提取内容、边界框和块类型。适用于大批量批处理摄取和自定义下游逻辑。
- Document AI 模式:在 OCR 引擎之上叠加额外能力。通过传入 JSON 架构或自定义提示,用户可以返回结构化 JSON(通过
mistral-small-2603)或使用视觉语言模型对图像进行标注。
基础设施与定价
OCR 4 足够轻量,可在单个容器中运行,帮助企业客户将数据保留在自有基础设施内。
定价结构:
- OCR 4 API:每 1,000 页 $4。
- 批量 API:每 1,000 页 $2(5 折优惠)。
- Document AI:每 1,000 页 $5。
推荐使用场景
Mistral OCR 4 针以下生产工作流进行了优化:
- RAG 的语义分块:使用分类块作为检索单元,提高准确性。
- 代理工作流:使代理能够执行表单填写、发票处理和合规检查。
- 企业搜索:作为自定义摄取和实体抽取的数据源组件。
- 结构化数据管道:利用置信分数触发高风险脱敏或财务抽取的人类验证。
OCR 4 已与 Mistral Search Toolkit 集成,这是一个用于 RAG 和企业搜索摄取与评估的开源框架。