sparrow: 一个面向 API 的文档智能平台，用于结构化数据提取和智能体工作流

sparrow: 一个面向 API 的文档智能平台，用于结构化数据提取和智能体工作流

问题解决

Sparrow 是一个面向 API 的平台，专为企业级文档智能而设计。它解决了将非结构化文档（如发票、收据、银行对账单和财务报表）转换为干净、经过验证的结构化 JSON 数据的问题。它还通过指令调用和智能体工作流处理文本处理和决策任务。

工作原理

Sparrow 使用可插拔架构，允许用户根据任务混合搭配不同的处理流水线：

Sparrow Parse: 利用 Vision LLMs 从图像和多页 PDF 中提取结构化 JSON。
Sparrow Instructor: 使用 Text LLMs 进行指令处理、验证和决策。
Sparrow Agents: 通过 Prefect 使用自定义智能体和视觉监控来编排多步工作流。

该平台支持多种后端，以确保它可以在各种硬件上运行，包括用于 Apple Silicon 的 MLX，用于 NVIDIA GPU 的 vLLM，Ollama，以及用于云端提取的 Mistral OCR。所有处理过程都可以在用户自己的基础设施上运行，以避免外部 API 依赖。

适用对象

它专为需要从复杂文档中自动提取数据，并将该数据集成到后端流水线或数据工作流中，且不希望依赖云端 AI 服务的人员（企业和开发者）而构建。

亮点

通用文档处理: 支持广泛的格式，包括 PNG、JPG 和多页 PDF。
Schema 验证: 使用基于 JSON schema 的提取方式，以确保输出数据有效。
可插拔后端: 兼容 MLX、vLLM、Ollama 和 Hugging Face。
本地执行: 设计用于在私有基础设施上运行，以增强安全性，且仅需要 RESTful API 调用即可完成集成。
可视化界面: 包括一个用于拖拽上传和实时处理结果展示的 Web UI。

Sources

undefinedkatanaml/sparrow