grobid: 一個用於從科學 PDF 中提取並結構化書目數據的機器學習函式庫

它解決了什麼問題

GROBID 旨在解決從原始、非結構化 PDF 文件中提取結構化數據的問題，特別針對技術和科學出版物。它將原始 PDF 轉換為結構化的 XML/TEI 編碼文件，讓研究人員和開發人員能夠以程式化方式存取書目資訊、全文和引用。

運作原理

GROBID 使用一系列序列標籤模型，這些模型作用於「佈局標記」（Layout Tokens）而非原始文本。這種方法允許系統利用視覺和佈局資訊（例如邊界框和座標）以及文本。它可以採用各種模型架構，包括用於速度和擴展性的 Conditional Random Fields (CRF)，或用於更高準確度的深度學習模型（RNNs 或 transformers），通常透過 JEP 使用 DeLFT 函式庫。

對象是誰

它適用於需要處理大規模科學文獻語料庫的開發人員和研究人員。它被 ResearchGate、Semantic Scholar 和 Internet Archive Scholar 等主要平台用於自動化提取元數據和全文結構化。

重點特性

全面提取：提取標題（標題、作者、所屬機構）、參考文獻、引用上下文和全文結構（段落、章節標題、腳註）。
高效能：專為高擴展性和速度而設計，能夠每天處理數百萬頁。
生產就緒：已部署在多個學術和研究機構的大規模生產環境中。
靈活部署：可透過 Web Service API、Docker 鏡像以及 Python、Java 和 Node.js 的用戶端進行存取。
座標映射：為提取的資訊提供 PDF 座標，以實現互動式、增強型 PDF 的建立。

grobid: 一個用於從科學 PDF 中提取並結構化書目數據的機器學習函式庫

grobid: 一個用於從科學 PDF 中提取並結構化書目數據的機器學習函式庫

它解決了什麼問題

運作原理

對象是誰

重點特性

Sources