sparrow: 一個用於結構化數據提取與代理工作流的 API-first 文件智能平台
sparrow: 一個用於結構化數據提取與代理工作流的 API-first 文件智能平台
它解決了什麼問題
Sparrow 是一個專為企業文件智能設計的 API-first 平台。它解決了將非結構化文件(例如發票、收據、銀行對帳單和財務表格)轉換為乾淨、經過驗證且結構化的 JSON 數據的問題。它還能透過指令調用和代理工作流來處理文本處理和決策任務。
運作方式
Sparrow 使用可插拔式架構,允許用戶根據任務混合搭配不同的處理流水線:
- Sparrow Parse: 利用 Vision LLMs 從圖像和多頁 PDF 中提取結構化 JSON。
- Sparrow Instructor: 使用 Text LLMs 進行指令處理、驗證和決策。
- Sparrow Agents: 透過 Prefect 使用自定義代理進行多步驟工作流編排,並提供視覺化監控。
該平台支持多種後端,以確保可以在各種硬件上運行,包括用於 Apple Silicon 的 MLX、用於 NVIDIA GPUs 的 vLLM、Ollama 以及用於雲端提取的 Mistral OCR。所有處理過程都可以在用戶自己的基礎設施上運行,以避免對外部 API 的依賴。
對象是誰
它是為需要自動化從複雜文件中提取數據,並在不依賴雲端 AI 服務的情況下將數據集成到後端流水線或數據工作流中的企業和開發者而構建的。
重點亮點
- 通用文件處理: 支持包括 PNG、JPG 和多頁 PDF 在內的廣泛格式。
- Schema 驗證: 使用基於 JSON schema 的提取方式,以確保輸出數據有效。
- 可插拔後端: 與 MLX、vLLM、Ollama 和 Hugging Face 相容。
- 本地執行: 設計用於在私有基礎設施上運行,以增強安全性,且僅需要 RESTful API 調用即可完成集成。
- 視覺化界面: 包括一個用於拖放上傳和實時處理結果的 Web UI。
Sources
- undefinedkatanaml/sparrow