SimpleHTR: 단어 및 텍스트 라인 이미지를 디지털 텍스트로 변환하는 필기체 텍스트 인식 시스템

SimpleHTR: 단어 및 텍스트 라인 이미지를 디지털 텍스트로 변환하는 필기체 텍스트 인식 시스템

해결하는 문제

이 프로젝트는 필기체 텍스트 인식(HTR)을 위한 시스템을 제공하여, 사용자가 필기된 단일 단어 또는 전체 텍스트 라인의 이미지를 디지털 텍스트로 변환할 수 있도록 합니다. 이는 특히 다양한 필기 스타일을 다룰 때 필기된 문자와 단어를 정확하게 인식해야 하는 과제를 해결합니다.

작동 방식

이 시스템은 TensorFlow로 구축되었으며, 특징 추출을 위한 5개의 Convolutional Neural Network (CNN) 레이어, 시퀀스 모델링을 위한 2개의 Recurrent Neural Network (RNN/LSTM) 레이어, 그리고 시각적 특징을 텍스트로 매핑하기 위한 Connectionist Temporal Classification (CTC) 손실 및 디코딩 레이어로 구성된 신경망 아키텍처를 활용합니다.

다음 세 가지 유형의 디코딩 방법을 지원합니다:

  • Bestpath: 기본 디코더입니다.
  • Beamsearch: 보다 고급 검색 기반 디코더입니다.
  • Word Beam Search: 정확도를 높이기 위해 인식된 단어를 특정 사전으로 제한하는 선택적 통합 디코더입니다.

대상 사용자

이 도구는 필기체에 대한 광학 문자 인식(OCR)에 관심이 있는 개발자와 연구자, 그리고 IAM off-line HTR 데이터셋을 사용하여 필기된 문서를 디지털화해야 하는 모든 사람을 위해 설계되었습니다.

주요 특징

  • 다단계 인식: 단일 단어와 전체 텍스트 라인을 모두 인식할 수 있습니다.
  • 유연한 디코딩: 사전 제약 인식을 위한 특화된 word beam search를 포함하여 여러 CTC 디코더를 제공합니다.
  • 성능 최적화: 학습 병목 현상을 줄이기 위해 LMDB 기반의 빠른 이미지 로더를 포함합니다.
  • 사전 학습된 모델: 단어 수준 및 라인 수준 인식을 위한 즉시 사용 가능한 모델을을 제공합니다.

Sources