unstract: 자연어 프롬프트를 사용해 비정형 문서를 구조화된 JSON으로 변환하는 플랫폼

unstract: 자연어 프롬프트를 사용해 비정형 문서를 구조화된 JSON으로 변환하는 플랫폼

해결하는 문제

Unstract는 PDF, 이미지, 스캔과 같은 비정형 문서를 구조화된 JSON 데이터로 자동 변환하는 과정을 자동화합니다. 복잡한 정규식 작성이나 각기 다른 문서 공급업체마다 맞춤형 템플릿을 구축할 필요가 없으며, 사용자는 자연어 프롬프트를 통해 추출 스키마를 정의할 수 있습니다.

작동 방식

플랫폼은 대형 언어 모델(LLM)을 사용해 문서를 파싱합니다. 사용자는 "Prompt Studio"에서 추출하고자 하는 내용을 정의하고, 시스템은 텍스트 추출기(예: LLMWhisperer 또는 Unstructured.io)와 LLM 제공자(예: OpenAI, Anthropic, Ollama)의 파이프라인을 통해 파일을 처리합니다. 결과로 얻어진 구조화된 데이터는 REST API로 배포하거나, S3 또는 Google Drive와 같은 소스에서 Snowflake 또는 BigQuery와 같은 데이터 웨어하우스로 데이터를 이동시키는 ETL 파이프라인에 통합할 수 있습니다.

대상 사용자

금융, 보험, 의료, KYC/컴플라이언스 등 데이터가 많이 요구되는 산업 분야의 팀을 위해 설계되었습니다. 다양한 문서 형식에서 특정 정보를 추출해야 하는 경우에 적합합니다.

주요 특징

  • Prompt Studio: 코딩이 아닌 자연어로 추출 스키마를 정의합니다.
  • 다중 제공자 지원: OpenAI, Anthropic, Bedrock, Gemini, Mistral, Ollama 등 다양한 LLM 제공자와 Qdrant, Pinecone, Weaviate 등 벡터 데이터베이스와 호환됩니다.
  • 확장 가능한 통합: AI 에이전트를 위한 MCP 서버, 자동화 워크플로우를 위한 n8n 노드, 다양한 ETL 커넥터를 포함합니다.
  • 광범위한 형식 지원: PDF, DOCX, 스프레드시트, 프레젠테이션 및 다양한 이미지 형식을 처리합니다.
  • 엔터프라이즈 기능: 이중 LLM 검증(LLMChallenge), 인간 검토 루프, 관리형 버전에서 SOC 2/HIPAA 준수를 제공합니다.

요약

LLM 기반 플랫폼으로, PDF 및 이미지와 같은 비정형 문서를 자연어 프롬프트를 통해 구조화된 JSON 데이터로 변환합니다.

제목

unstract: 자연어 프롬프트를 사용해 비정형 문서를 구조화된 JSON으로 변환하는 플랫폼

Sources