sparrow: 구조화된 데이터 추출 및 에이전트 워크플로우를 위한 API 우선 문서 지능 플랫폼
sparrow: 구조화된 데이터 추출 및 에이전트 워크플로우를 위한 API 우선 문서 지능 플랫폼
해결하는 문제
Sparrow는 기업용 문서 지능을 위해 설계된 API 우선 플랫폼입니다. 송장, 영수증, 은행 명세서, 금융 표와 같은 비정형 문서를 깨끗하고 검증된 구조화된 JSON 데이터로 변환하는 문제를 해결합니다. 또한 지시 호출(instruction calling) 및 에이전트 워크플로우를 통해 텍스트 처리 및 의사 결정 작업을 처리합니다.
작동 방식
Sparrow는 사용자가 작업에 따라 다양한 처리 파이프라인을 혼합하고 조합할 수 있는 플러그형 아키텍처를를 사용합니다:
- Sparrow Parse: Vision LLM을 활용하여 이미지 및 다중 페이지 PDF에서 구조화된 JSON을 추출합니다.
- Sparrow Instructor: 지시 처리, 검증 및 의사 결정을 위해 Text LLM을 사용합니다.
- Sparrow Agents: Prefect를 통해 커스텀 에이전트와 시각적 모니터링을 사용하여 다단계 워크플로우를 오케스트레이션합니다.
플랫폼은 Apple Silicon을 위한 MLX, NVIDIA GPU를 위한 vLLM, Ollama, 그리고 클라우드 기반 추출을 위한 Mistral OCR을 포함하여 다양한 하드웨어에서 실행될 수 있도록 여러 백엔드를 지원합니다. 모든 처리는 외부 API 의존성을 피하기 위해 사용자의 자체 인프라에서 실행될 수 있습니다.
대상 사용자
복잡한 문서에서 데이터 추출을 자동화하고, 클라우드 기반 AI 서비스에 의존하지 않고 해당 데이터를 백엔드 파이프라인이나 데이터 워크플로우에 통합해야 하는 기업 및 개발자를 위해 구축되었습니다.
주요 특징
- 범용 문서 처리: PNG, JPG 및 다중 페이지 PDF를 포함한 광범위한 형식을 지원합니다.
- 스키마 검증: 출력 데이터가 유효한지 확인하기 위해 JSON schema 기반 추출을 사용합니다.
- 플러그형 백엔드: MLX, vLLM, Ollama, Hugging Face와 호환됩니다.
- 로컬 실행: 강화된 보안을 위해 프라이빗 인프라에서 실행되도록 설계되었으며, 통합을 위해 RESTful API 호출만 필요합니다.
- 시각적 인터페이스: 드래그 앤 드롭 업로드 및 실시간 처리 결과를 위한 웹 UI를 포함합니다.
Sources
- undefinedkatanaml/sparrow