sparrow: 一个面向 API 的文档智能平台,用于结构化数据提取和智能体工作流
sparrow: 一个面向 API 的文档智能平台,用于结构化数据提取和智能体工作流
问题解决
Sparrow 是一个面向 API 的平台,专为企业级文档智能而设计。它解决了将非结构化文档(如发票、收据、银行对账单和财务报表)转换为干净、经过验证的结构化 JSON 数据的问题。它还通过指令调用和智能体工作流处理文本处理和决策任务。
工作原理
Sparrow 使用可插拔架构,允许用户根据任务混合搭配不同的处理流水线:
- Sparrow Parse: 利用 Vision LLMs 从图像和多页 PDF 中提取结构化 JSON。
- Sparrow Instructor: 使用 Text LLMs 进行指令处理、验证和决策。
- Sparrow Agents: 通过 Prefect 使用自定义智能体和视觉监控来编排多步工作流。
该平台支持多种后端,以确保它可以在各种硬件上运行,包括用于 Apple Silicon 的 MLX,用于 NVIDIA GPU 的 vLLM,Ollama,以及用于云端提取的 Mistral OCR。所有处理过程都可以在用户自己的基础设施上运行,以避免外部 API 依赖。
适用对象
它专为需要从复杂文档中自动提取数据,并将该数据集成到后端流水线或数据工作流中,且不希望依赖云端 AI 服务的人员(企业和开发者)而构建。
亮点
- 通用文档处理: 支持广泛的格式,包括 PNG、JPG 和多页 PDF。
- Schema 验证: 使用基于 JSON schema 的提取方式,以确保输出数据有效。
- 可插拔后端: 兼容 MLX、vLLM、Ollama 和 Hugging Face。
- 本地执行: 设计用于在私有基础设施上运行,以增强安全性,且仅需要 RESTful API 调用即可完成集成。
- 可视化界面: 包括一个用于拖拽上传和实时处理结果展示的 Web UI。
Sources
- undefinedkatanaml/sparrow