unstract: 自然言語プロンプトを使用して非構造化ドキュメントを構造化JSONに変換するプラットフォーム
unstract: 自然言語プロンプトを使用して非構造化ドキュメントを構造化JSONに変換するプラットフォーム
解決する課題
Unstract は、PDF、画像、スキャンなどの非構造化ドキュメントを構造化 JSON データに変換するプロセスを自動化します。複雑な正規表現を書いたり、各ベンダーごとにカスタムテンプレートを作成したりする必要がなくなり、ユーザーは自然言語プロンプトで抽出スキーマを定義できるようになります。
仕組み
このプラットフォームは Large Language Models (LLMs) を使用してドキュメントを解析します。ユーザーは「Prompt Studio」で抽出したい内容を定義し、システムはテキスト抽出器(LLMWhisperer や Unstructured.io など)と LLM プロバイダー(OpenAI、Anthropic、Ollama など)のパイプラインを通してファイルを処理します。生成された構造化データは REST API としてデプロイしたり、S3 や Google Drive などのソースから Snowflake や BigQuery といったデータウェアハウスへデータを移動させる ETL パイプラインに統合したりできます。
対象ユーザー
金融、保険、医療、KYC/コンプライアンスなど、データ量が多い業界のチーム向けです。さまざまなドキュメント形式から特定の情報を抽出する必要がある場合に最適です。
ハイライト
- Prompt Studio: コードではなく自然言語で抽出スキーマを定義。
- マルチプロバイダーサポート: OpenAI、Anthropic、Bedrock、Gemini、Mistral、Ollama など多数の LLM プロバイダーと、Qdrant、Pinecone、Weaviate などのベクトルデータベースに対応。
- 拡張可能な統合: AI エージェント用の MCP サーバー、n8n ノードによる自動化ワークフロー、豊富な ETL コネクタを提供。
- 幅広いフォーマット対応: PDF、DOCX、スプレッドシート、プレゼンテーション、各種画像フォーマットを処理。
- エンタープライズ機能: デュアル LLM 検証(LLMChallenge)、ヒューマン・イン・ザ・ループレビュー、マネージド版での SOC 2/HIPAA コンプライアンスを提供。
Sources
- undefinedZipstack/unstract