xberg: 무엇인지, 어떤 문제를 해결하는지 & 왜 인기를 얻고 있는지

xberg: 무엇인지, 어떤 문제를 해결하는지 & 왜 인기를 얻고 있는지

해결하는 문제

Xberg는 방대한 양의 파편화된 파일 형식에서 구조화된 깨끗한 텍스트와 메타데이터를 추출하는 문제를 해결하기 위해 설계된 콘텐츠 지능 엔진입니다. PDF, Office 문서, 이미지, 오디오/비디오, 소스 코드 등을 처리하기 위해 여러 개의 서로 다른 도구를 사용할 필요 없이, 문서 처리를 위한 통합된 인터페이스를 제공합니다.

작동 방식

Rust 코어를 기반으로 구축된 Xberg는 96개의 파일 형식과 306개의 프로그래밍 언어를 지원하는 단일 엔진을 제공합니다. 지능형 MIME 감지 및 대용량 파일을 위한 스트리밍 방식을 사용합니다. 이미지의 경우, 플러그형 OCR 백엔드(Tesseract, PaddleOCR, Candle, 또는 VLMs)를 제공합니다. 오디오 및 비디오의 경우, 전사(transcription)를 위해 Whisper ONNX를 사용합니다. 라이브러리, CLI 도구, REST API, 또는 AI 에이전트를 위한 MCP 서버로 배포할 수 있습니다.

대상 사용자

GPU를 필요로 하지 않고 다양한 문서를 기계 판독 가능한 형식(Markdown 또는 JSON과 같은)으로 변환해야 하는 RAG 파이프라인, AI 에이전트, 또는 데이터 추출 워크플로우를 구축하는 개발자를 대상으로 합니다.

주요 특징

  • 방대한 형식 지원: Office, PDF, eBooks, Email, 과학 학술지 등 96개 형식을 지원합니다.
  • 코드 지능: 306개 언어에서 함수, 클래스, 및 심볼을 추출하며, RAG를 위한 구문 인식 청킹(syntax-aware chunking)을 지원합니다.
  • 멀티 런타임 배포: 16개 언어(Python, Node.js, Rust, Go, Java 등)에 대한 네이티브 바인딩 및 WASM 지원을 제공합니다.
  • 크롤링 및 재귀: URL을 따라가고 아카이브 또는 다른 문서 내에 중첩된 문서를 추출할 수 있는 능력을 갖추고 있습니다.
  • AI 통합: LLM 기반의 구조화된 추출, 임베딩, 그리고 에이전트 워크플로우를 위한 MCP 서버를 내장 지원합니다.

Sources