grobid: 一个用于从科学 PDF 中提取和结构化书目数据的机器学习库

grobid: 一个用于从科学 PDF 中提取和结构化书目数据的机器学习库

它解决了什么问题

GROBID 旨在解决从原始、非结构化 PDF 文档中提取结构化数据的问题,特别针对技术和科学出版物。它将原始 PDF 转换为结构化的 XML/TEI 编码文档,允许研究人员和开发人员以编程方式访问书目信息、全文和引用。

它是如何工作的

GROBID 使用一系列序列标注模型,这些模型作用于“布局令牌”(Layout Tokens)而非原始文本。这种方法允许系统利用视觉和布局信息(如边界框和坐标)以及文本。它可以采用各种模型架构,包括用于速度和可扩展性的条件随机场 (CRF),或用于更高准确性的深度学习模型 (RNNs 或 transformers),通常通过 JEP 使用 the DeLFT library。

它是面向谁的

它适用于需要处理大规模科学文献语料库的开发人员和研究人员。它被 ResearchGate、Semantic Scholar 和 Internet Archive Scholar 等主要平台用于自动化元数据提取和全文结构化。

亮点

  • 全面提取:提取标题(标题、作者、所属机构)、参考文献、引用上下文和全文结构(段落、章节标题、脚注)。
  • 高性能:专为高可扩展性和速度而设计,能够每天处理数百万页。
  • 生产就绪:已部署在多个学术和研究机构的大规模生产环境中。
  • 灵活部署:可通过 Web 服务 API、Docker 镜像以及 Python、Java 和 Node.js 的客户端提供。
  • 坐标映射:为提取的信息提供 PDF 坐标,以实现交互式、增强型 PDF 的创建。

Sources