LEANN

LEANN:它是什么、解决了什么问题以及为何受到关注

它解决了什么

LEANN 是一个轻量级向量数据库,专为个人 AI 系统设计。它解决了传统向量数据库对存储空间的高需求问题,使用户能够在笔记本电脑上对数百万文档进行索引和搜索,而无需昂贵的云基础设施,也不会牺牲搜索准确性。

工作原理

LEANN 使用一种称为 graph-based selective recomputation 并结合 high-degree preserving pruning 的技术。它不是存储每个嵌入(文本的数值表示),而是按需计算,并利用裁剪后的图结构来最小化存储开销。它支持多种后端,包括 HNSW 和 DiskANN,并通过兼容 OpenAI 的 API 与各种 LLM 和嵌入提供商集成。

适用人群

它面向希望构建私有、本地 RAG(检索增强生成)系统的个人,能够对个人数据进行语义搜索——如文件系统、电子邮件、浏览器历史、聊天记录(微信、iMessage)以及代理记忆(ChatGPT、Claude)——同时保持完整隐私并降低硬件需求。

亮点

  • 极致存储效率:声称比传统方案节省 97% 的存储空间(例如,将 6000 万块索引压缩至 6GB,而非 201GB)。
  • 隐私优先:数据始终保留在用户的笔记本本地,不依赖云端。
  • 广泛的数据集成:支持 PDF、文本文件、Apple Mail、浏览器历史,以及通过模型上下文协议(MCP)接入实时数据。
  • Claude Code 兼容:可作为 Claude Code 的语义搜索 MCP 服务。
  • 多模态支持:包含 ColQwen,用于从 PDF 中进行视觉和文本检索。

Sources