sparrow: 構造化データ抽出とエージェント型ワークフローのためのAPIファーストなドキュメントインテリジェンスプラットフォーム
sparrow: 構造化データ抽出とエージェント型ワークフローのためのAPIファーストなドキュメントインテリジェンスプラットフォーム
何を解決するか
Sparrowは、エンタープライズ向けドキュメントインテリジェンスのために設計されたAPIファーストなプラットフォームです。請求書、領収書、銀行取引明細書、財務諸表などの非構造化ドキュメントを、クリーンで検証済みの構造化されたJSONデータに変換するという問題を解決します。また、指示呼び出し(instruction calling)とエージェント型ワークフローを通じて、テキスト処理と意思決定タスクも処理します。
仕組み
Sparrowは、タスクに基づいて異なる処理パイプラインを組み合わせて使用できるプラグイン可能なアーキテクチャを採用しています。
- Sparrow Parse: Vision LLMsを利用して、画像や複数ページのPDFから構造化されたJSONを抽出します。
- Sparrow Instructor: Text LLMsを使用して、指示処理、検証、および意思決定を行います。
- Sparrow Agents: カスタムエージェントとPrefectによる視覚的なモニタリングを使用して、マルチステップのワークフローをオーケストレーションします。
プラットフォームは、Apple Silicon用のMLX、NVIDIA GPU用のvLLM、Ollama、およびクラウドベースの抽出用のMistral OCRを含む、さまざまなハードウェア上で実行できるように複数のバックエンドをサポートしています。外部APIへの依存を避けるため、すべての処理をユーザー自身のインフラストラクチャ上で実行可能です。
対象ユーザー
複雑なドキュメントからのデータ抽出を自動化し、クラウドベースのAIサービスに依存することなく、そのデータをバックエンドパイプラインやデータワークフローに統合する必要がある企業や開発者向けに構築されています。
ハイライト
- ユニバーサルなドキュメント処理: PNG、JPG、および複数ページのPDFを含む幅広い形式をサポートしています。
- スキーマ検証: JSON schemaベースの抽出を使用して、出力データが有効であることを保証します。
- プラグイン可能なバックエンド: MLX、vLLM、Ollama、およびHugging Faceと互換性があります。
- ローカル実行: セキュリティ強化のためにプライベートなインフラストラクチャ上で実行するように設計されており、統合にはRESTful API呼び出しのみが必要です。
- ビジュアルインターフェース: ドラッグ&ドロップによるアップロードとリアルタイムの処理結果を表示するWeb UIが含まれています。
Sources
- undefinedkatanaml/sparrow