grobid: 一个用于从科学 PDF 中提取和结构化书目数据的机器学习库

它解决了什么问题

GROBID 旨在解决从原始、非结构化 PDF 文档中提取结构化数据的问题，特别针对技术和科学出版物。它将原始 PDF 转换为结构化的 XML/TEI 编码文档，允许研究人员和开发人员以编程方式访问书目信息、全文和引用。

它是如何工作的

GROBID 使用一系列序列标注模型，这些模型作用于“布局令牌”（Layout Tokens）而非原始文本。这种方法允许系统利用视觉和布局信息（如边界框和坐标）以及文本。它可以采用各种模型架构，包括用于速度和可扩展性的条件随机场 (CRF)，或用于更高准确性的深度学习模型 (RNNs 或 transformers)，通常通过 JEP 使用 the DeLFT library。

它是面向谁的

它适用于需要处理大规模科学文献语料库的开发人员和研究人员。它被 ResearchGate、Semantic Scholar 和 Internet Archive Scholar 等主要平台用于自动化元数据提取和全文结构化。

亮点

全面提取：提取标题（标题、作者、所属机构）、参考文献、引用上下文和全文结构（段落、章节标题、脚注）。
高性能：专为高可扩展性和速度而设计，能够每天处理数百万页。
生产就绪：已部署在多个学术和研究机构的大规模生产环境中。
灵活部署：可通过 Web 服务 API、Docker 镜像以及 Python、Java 和 Node.js 的客户端提供。
坐标映射：为提取的信息提供 PDF 坐标，以实现交互式、增强型 PDF 的创建。

grobid: 一个用于从科学 PDF 中提取和结构化书目数据的机器学习库

grobid: 一个用于从科学 PDF 中提取和结构化书目数据的机器学习库

它解决了什么问题

它是如何工作的

它是面向谁的

亮点

Sources