SimpleHTR: 単語やテキスト行の画像をデジタルテキストに変換する手書き文字認識システム

SimpleHTR: 単語やテキスト行の画像をデジタルテキストに変換する手書き文字認識システム

解決する課題

このプロジェクトは、手書き文字認識(HTR)のためのシステムを提供し、ユーザーが手書きの単語やテキスト行全体の画像をデジタルテキストに変換できるようにします。これは、特に多様な筆跡スタイルを扱う際の、手書きの文字や単語を正確に認識するという課題に対処します。

仕組み

このシステムはTensorFlowで構築されており、特徴抽出のための5つのConvolutional Neural Network (CNN) レイヤー、シーケンスモデリングのための2つのRecurrent Neural Network (RNN/LSTM) レイヤー、および視覚的特徴をテキストにマッピングするためのConnectionist Temporal Classification (CTC) 損失およびデコーディングレイヤーで構成されるニューラルネットワークアーキテクチャを利用しています。

3種類のデコーディング手法をサポートしています:

  • Bestpath: デフォルトの基本的なデコーダー。
  • Beamsearch: より高度な探索ベースのデコーダー。
  • Word Beam Search: 認識された単語を特定の辞書に制約して精度を向上させる、オプションの統合デコーダー。

対象ユーザー

このツールは、手書き文字の光学文字認識(OCR)に関心のある開発者や研究者、およびIAM off-line HTRデータセットを使用して手書き文書をデジタル化する必要があるすべての人を対象としています。

ハイライト

  • マルチレベル認識: 単語とテキスト行全体の両方を認識可能です。
  • 柔軟なデコーディング: 辞書制約付き認識のための特化したword beam searchを含む、複数のCTCデコーダーを提供します。
  • パフォーマンスの最適化: トレーニングのボトルネックを削減するために、LMDBベースの高速な画像ローダーが含まれています。
  • 学習済みモデル: 単語レベルと行レベルの両方の認識のための、すぐに使用可能なモデルを提供します。

Sources