grobid: 科学的なPDFから文献情報を抽出・構造化するための機械学習ライブラリ

grobid: 科学的なPDFから文献情報を抽出・構造化するための機械学習ライブラリ

何を解決するか

GROBIDは、未加工で非構造的なPDFドキュメント、特に技術的および科学的な出版物から構造化データを抽出するという問題を解決するために設計されています。生のPDFを構造化されたXML/TEIエンコードされたドキュメントに変換することで、研究者や開発者が文献情報、全文、および引用をプログラムでアクセスできるようにします。

仕組み

GROBIDは、生のテキストではなく「Layout Tokens」に対して動作するシーケンスラベル付けモデルの連鎖を使用します。このアプローチにより、システムはテキストとともに視覚的およびレイアウト情報(バウンディングボックスや座標など)を活用できます。速度とスケーラビリティのためにConditional Random Fields (CRF) を使用したり、より高い精度を得るためにディープラーニングモデル(RNNs または transformers)を使用したりするなど、さまざまなモデルアーキテクチャを採用できます。多くの場合、JEPを介してDeLFTライブラリを利用します。

対象者

大規模な科学文献コーパスを処理する必要がある開発者や研究者を対象としています。ResearchGate、Semantic Scholar、およびInternet Archive Scholarのような主要なプラットフォームによって、メタデータの抽出と全文の構造化を自動化するために使用されています。

ハイライト

  • 包括的な抽出: ヘッダー(タイトル、著者、所属)、参考文献、引用コンテキスト、および全文構造(段落、セクションタイトル、脚注)を抽出します。
  • 高パフォーマンス: 高いスケーラビリティと速度のために設計されており、1日あたり数百万ページを処理することが可能です。
  • プロダクション対応: 複数の学術および研究機関にわたる大規模なプロダクション環境に導入されています。
  • 柔軟なデプロイ: WebサービスAPI、Dockerイメージ、およびPython、Java、Node.js用のクライアントを通じて利用可能です。
  • 座標マッピング: 抽出された情報に対してPDFの座標を提供し、インタラクティブで拡張されたPDFの作成を可能にします。

Sources