Mistral OCR 4 릴리스 노트
Mistral OCR 4 릴리스 노트
Mistral OCR 4는 복잡한 문서에서 콘텐츠를 추출하고 구조화하도록 설계된 최첨단 문서 지능 모델입니다. 경계 상자(bounding boxes), 블록 분류, 신뢰도 점수를 포함한 문서의 구조화된 표현을 제공하여 Retrieval-Augmented Generation (RAG), 기업용 검색 및 에이전트 워크플로우를 위한 핵심적인 인제스션(ingestion) 구성 요소로 활용됩니다.
구조화된 문서 표현
Mistral OCR 4는 단순한 텍스트 추출을 넘어 문서의 포괄적인 구조적 지도를 제공합니다. 추출된 모든 블록에는 다음 사항이 포함됩니다:
- Bounding Boxes: 문맥 내 하이라이팅 및 신뢰할 수 있는 데이터 파이프라인을 위해 텍스트의 위치를 지정합니다.
- Typed-Block Classification: 제목, 표, 수식 및 서명을 포함한 요소를 식별합니다.
- Inline Confidence Scores: 인간 참여형(human-in-the-loop) 검증 및 비식별화를 용이하게 하기 위해 페이지 및 단어별로 생성됩니다.
이러한 구조화된 출력은 다운스트림 시스템이 텍스트 콘텐츠뿐만 아니라 문서 내 각 요소의 공간적 배치와 기능적 역할을 이해할 수 있도록 합니다.
성능 및 벤치마크
Mistral OCR 4는 여러 벤치마크와 인간 평가에서 선도적인 AI 네이티브 및 기업용 OCR 시스템을 능가합니다.
인간 선호도 및 공개 벤치마크
독립적인 주석 작성자들이 테스트된 모든 경쟁사 제품보다 OCR 4를 선호했으며, 평균 승률은 72%였습니다. 공개 벤치마크에서는 OlmOCRBench에서 종합 점수 85.20, OmniDocBench에서 93.07이라는 최고 점수를 달성했습니다.
다국어 능력
OCR 4는 10개 언어 그룹에 걸쳐 170개 언어를 지원합니다. 경쟁 시스템이 일반적으로 성능이 저하되는 희귀 언어 및 저자원 언어(Georgian, Armenian, Kannada 포함)에서 상당한 성능 향상을 보여줍니다.
벤치마크 한계점
Mistral은 집계된 점수를 방향성 지표로 취급해야 한다고 언급합니다. 올바른 출력을 감점할 수 있는 일반적인 점수 산정 오류 요인은 다음과 같습니다:
- Ground-truth errors: 벤치마크의 잘못된 참조 주석.
- Equivalent math notation: 동일하게 렌더링되는 서로 다른 LaTeX 문자열.
- Equation segmentation: 수식이 조각으로 분할되는 방식의 차이.
- Multi-column reading order: 열 경계에서 분할된 단어 처리의 어려움.
배포 및 통합 옵션
OCR 4는 배포의 유연성을 위해 설계되었으며, 데이터 주권 확보를 위해 API 기반 액세스 및 셀프 호스팅 환경을 모두 지원합니다.
API 및 Document AI
개발자는 OCR 4 API를 두 가지 주요 모드로 사용할 수 있습니다:
- Pure Extraction Mode: 가공되지 않은 추출된 콘텐츠, 경계 상자 및 블록 유형을 반환합니다. 이는 대량의 배치 인제스션 및 커스텀 다운스트림 로직에 이상적입니다.
- Document AI Mode: OCR 엔진 위에 추가적인 기능을 계층화합니다. JSON 스키마 또는 커스텀 프롬프트를 전달함으로써, 사용자는 구조화된 JSON(via
mistral-small-2603)을 반환하거나 비전-언어 모델을 사용하여 이미지에 주석을 달 수 있습니다.
인프라 및 가격 정책
OCR 4는 단일 컨테이너에서 실행될 수 있을 만큼 컴팩트하여, 기업 고객이 자신의 인프라 내에서 데이터를 유지할 수 있도록 합니다.
가격 구조:
- OCR 4 API: 1,000페이지당 $4.
- Batch API: 1,000페이지당 $2 (50% 할인).
- Document AI: 1,000페이지당 $5.
권장 사용 사례
Mistral OCR 4는 다음과 같은 프로덕션 워크플로우에 최적화되어 있습니다:
- Semantic Chunking for RAG: 정확도를 높이기 위해 분류된 블록을 검색 단위로 사용합니다.
- Agentic Workflows: 에이전트가 양식 작성, 인보이스 처리 및 컴플라이언스 체크를 수행할 수 있도록 합니다.
- Enterprise Search: 커스텀 인제스션 및 엔티티 추출을 위한 데이터 소스 구성 요소로 활용됩니다.
- Structured Data Pipelines: 신뢰도 점수를 활용하여 고위험 비식별화 또는 금융 추출 작업 시 인간의 검증을 트리거합니다.
OCR 4는 RAG 및 기업용 검색 인제스션과 평가를 위한 오픈 소스 프레임워크인 Mistral Search Toolkit과 통합되어 있습니다.