grobid: 과학 PDF에서 서지 데이터 추출 및 구조화를 위한 머신러닝 라이브러리
grobid: 과학 PDF에서 서지 데이터 추출 및 구조화를 위한 머신러닝 라이브러리
해결하는 문제
GROBID는 원시적이고 비구조적인 PDF 문서, 특히 기술 및 과학 출판물에서 구조화된 데이터를 추출하는 문제를 해결하도록 설계되었습니다. 원시 PDF를 구조화된 XML/TEI 인코딩 문서로 변환하여 연구자와 개발자가 서지 정보, 전체 텍스트, 인용 정보를 프로그래밍 방식으로 접근할 수 있게 합니다.
작동 방식
GROBID는 "Layout Tokens"에 기반한 일련의 시퀀스 라벨링 모델을 사용합니다. 이 접근법은 텍스트뿐만 아니라 시각적·레이아웃 정보(바운딩 박스와 좌표 등)를 활용할 수 있게 합니다. 모델 아키텍처로는 속도와 확장성을 위한 조건부 랜덤 필드(CRF) 또는 높은 정확도를 위한 딥러닝 모델(RNN 또는 트랜스포머) 등을 사용할 수 있으며, 종종 JEP을 통해 DeLFT 라이브러리를 활용합니다.
대상 사용자
대규모 과학 문헌 코퍼스를 처리해야 하는 개발자와 연구자를 위한 것입니다. ResearchGate, Semantic Scholar, Internet Archive Scholar와 같은 주요 플랫폼에서 메타데이터 추출 및 전체 텍스트 구조화를 자동화하기 위해 사용됩니다.
주요 특징
- 포괄적인 추출: 헤더(제목, 저자, 소속), 참고문헌, 인용 문맥, 전체 텍스트 구조(단락, 섹션 제목, 각주)를 추출합니다.
- 고성능: 높은 확장성과 속도를 위해 설계되어 하루에 수백만 페이지를 처리할 수 있습니다.
- 프로덕션 준비: 다수의 학술 및 연구 기관에서 대규모 프로덕션 환경에 배포됩니다.
- 유연한 배포: 웹 서비스 API, Docker 이미지, Python·Java·Node.js용 클라이언트를 통해 제공됩니다.
- 좌표 매핑: 추출된 정보에 대한 PDF 좌표를 제공하여 인터랙티브하고 증강된 PDF를 만들 수 있습니다.
요약
원시 과학 PDF 출판물을 구조화된 XML/TEI 문서로 파싱하여 대규모 서지 데이터 추출을 가능하게 하는 머신러닝 라이브러리.
제목
grobid: 과학 PDF에서 서지 데이터 추출 및 구조화를 위한 머신러닝 라이브러리
Sources
- undefinedgrobidOrg/grobid