grobid: 一個用於從科學 PDF 中提取並結構化書目數據的機器學習函式庫
grobid: 一個用於從科學 PDF 中提取並結構化書目數據的機器學習函式庫
它解決了什麼問題
GROBID 旨在解決從原始、非結構化 PDF 文件中提取結構化數據的問題,特別針對技術和科學出版物。它將原始 PDF 轉換為結構化的 XML/TEI 編碼文件,讓研究人員和開發人員能夠以程式化方式存取書目資訊、全文和引用。
運作原理
GROBID 使用一系列序列標籤模型,這些模型作用於「佈局標記」(Layout Tokens)而非原始文本。這種方法允許系統利用視覺和佈局資訊(例如邊界框和座標)以及文本。它可以採用各種模型架構,包括用於速度和擴展性的 Conditional Random Fields (CRF),或用於更高準確度的深度學習模型(RNNs 或 transformers),通常透過 JEP 使用 DeLFT 函式庫。
對象是誰
它適用於需要處理大規模科學文獻語料庫的開發人員和研究人員。它被 ResearchGate、Semantic Scholar 和 Internet Archive Scholar 等主要平台用於自動化提取元數據和全文結構化。
重點特性
- 全面提取:提取標題(標題、作者、所屬機構)、參考文獻、引用上下文和全文結構(段落、章節標題、腳註)。
- 高效能:專為高擴展性和速度而設計,能夠每天處理數百萬頁。
- 生產就緒:已部署在多個學術和研究機構的大規模生產環境中。
- 靈活部署:可透過 Web Service API、Docker 鏡像以及 Python、Java 和 Node.js 的用戶端進行存取。
- 座標映射:為提取的資訊提供 PDF 座標,以實現互動式、增強型 PDF 的建立。
Sources
- undefinedgrobidOrg/grobid