Mistral OCR 4 リリースノート

Mistral OCR 4 リリースノート

Mistral OCR 4 は、複雑なドキュメントからコンテンツを抽出して構造化するために設計された、最先端のドキュメント・インテリジェンス・モデルです。バウンディングボックス、ブロック分類、信頼度スコアを含むドキュメントの構造化された表現を提供し、Retrieval-Augmented Generation (RAG)、エンタープライズ検索、およびエージェント・ワークフローにとって不可欠なインジェクション(取り込み)コンポーネントとなります。

構造化されたドキュメント表現

Mistral OCR 4 は、単なるテキスト抽出を超えて、ドキュメントの包括的な構造マップを提供します。抽出されたすべてのブロックには、以下が伴います:

  • Bounding Boxes: コンテキスト内でのハイライトや信頼性の高いデータパイプラインのために、テキストをローカライズします。
  • Typed-Block Classification: タイトル、テーブル、数式、署名などの要素を識別します。
  • Inline Confidence Scores: ヒューマン・イン・ザ・ループによる検証や墨消し(redaction)を容易にするため、ページごとおよび単語ごとに生成されます。

この構造化された出力により、ダウンストリーム・システムはテキスト内容だけでなく、ドキュメント内の各要素の空間的な配置や機能的な役割も理解できるようになります。

パフォーマンスとベンチマーク

Mistral OCR 4 は、複数のベンチマークおよび人間による評価において、主要な AI-native およびエンタープライズ OCR システムを凌駕しています。

人間の好みと公開ベンチマーク

独立したアノテーターは、テストされたすべての競合他社と比較して OCR 4 を優先し、平均勝率 72% を記録しました。公開ベンチマークでは、OlmOCRBench で 85.20OmniDocBench で 93.07 というトップの総合スコアを達成しました。

多言語対応能力

OCR 4 は、10 の言語グループにわたる 170 の言語をサポートしています。競合システムが通常精度が低下する、希少言語や低リソース言語(ジョージア語、アルメニア語、カンナダ語を含む)において、大幅なパフォーマンス向上を示しています。

ベンチマークの限界

Mistral は、集計スコアは方向性を示すものとして扱うべきであると述べています。正しい出力をペナルティとして扱う可能性のある一般的なスコアリング・アーティファクトは以下の通りです:

  • Ground-truth errors: ベンチマークにおける不正確な参照アノテーション。
  • Equivalent math notation: 同一のレンダリング結果となる異なる LaTeX 文字列。
  • Equation segmentation: 式が断片に分割される方法のバリエーション。
  • Multi-column reading order: 列の境界をまたいで分割された単語に関する課題。

デプロイメントと統合オプション

OCR 4 は、デプロイメントの柔軟性を考慮して設計されており、データ主権のために API ベースのアクセスとセルフホスト環境の両方をサポートしています。

API と Document AI

開発者は、OCR 4 API を主に 2 つのモードで利用できます:

  1. Pure Extraction Mode: 生の抽出コンテンツ、バウンディングボックス、およびブロック・タイプを返します。これは、大量のバッチ・インジェクションに最適です。
  2. Document AI Mode: OCR エンジン上にさらなる機能を追加します。JSON スキーマまたはカスタムプロンプトを渡すことで、ユーザーは構造化された JSON (via mistral-small-2603) を返したり、ビジョン・ランゲージ・モデルを使用して画像をアノテーションしたりできます。

インフラストラクチャと価格設定

OCR 4 は、単一のコンテナで実行できるほどコンパクトであり、エンタープライズ顧客がデータを自らのインフラストラクチャ内に保持することを可能にします。

価格設定構造:

  • OCR 4 API: 1,000 ページあたり $4。
  • Batch API: 1,000 ページあたり $2 (50% 割引)。
  • Document AI: 1,000 ページあたり $5。

推奨されるユースケース

Mistral OCR 4 は、以下のプロダクション・ワークフローに最適化されています:

  • Semantic Chunking for RAG: 分類されたブロックを検索ユニットとして使用して、精度を向上させます。
  • Agentic Workflows: エージェントがフォーム入力、請求書処理、およびコンプライアンス・チェックを実行できるようにします。
  • Enterprise Search: カスタム・インジェクションおよびエンティティ抽出のためのデータソース・コンポーネントとして機能します。
  • Structured Data Pipelines: 信頼度スコアを利用して、機密情報の墨消しや財務データの抽出における重要な判断において、人間の検証をトリガーします。

OCR 4 は、RAG およびエンタープライズ検索のインジェクションおよび評価のためのオープンソース・フレームワークである Mistral Search Toolkit と統合されています。

Sources