chonkie: 一个用于快速高效 RAG 文本分块的轻量级摄取库

chonkie: 一个用于快速高效 RAG 文本分块的轻量级摄取库

它解决了什么问题

Chonkie 是一个轻量级摄取库,旨在简化并加速为检索增强生成 (RAG) 流水线将文本拆分为块的过程。它消除了从头开始构建自定义分块器的需求,并减少了与大型、臃肿库相关的开销。

工作原理

Chonkie 提供多种分块策略和用于将这些操作链接在一起的流水线系统。它支持多种文本拆分方法,包括:

  • 固定大小/基于 Token: 使用 TokenChunker 或 SIMD 加速的 FastChunker
  • 结构化/层级化: 使用 RecursiveChunker(具有可自定义规则)或用于编程语言的 CodeChunker
  • 语义化: 使用 SemanticChunker(基于相似度)或 SlumberChunker(使用 LLM 来寻找有意义的分隔点)。
  • 专业化: 用于 Markdown 表格的 TableChunker 和用于神经模型的 NeuralChunker

用户可以构建一个 Pipeline 来获取数据、对其进行分块、进行细化(例如,添加嵌入或合并重叠部分),并直接通过 "handshakes" 将其发送到向量数据库。

适用人群

构建 RAG 应用的开发者,他们需要一个快速、高效且支持多语言(支持 56 种语言)的文本拆分工具,该工具可以轻松地与现有的向量存储、嵌入提供商和 LLM 集成。

亮点

  • 广泛的集成: 超过 45 种集成,包括 10 多种向量数据库 (ChromaDB, Pinecone, Qdrant, 等),16 多种嵌入提供商,以及 5 多种 LLM 提供商。
  • 高性能: 基准测试显示,其包大小比竞争对手更小,且速度显著更快。
  • REST API 服务器: 可以作为自托管 API 运行,以便轻松集成到任何应用中。
  • 灵活的 Tokenization: 支持各种分词器,包括 tiktoken, Hugging Face, 和自定义 Token 计数函数。
  • Agent 就绪: 为 Claude Code 和 Cursor 等 AI 编程 Agent 提供官方技能和插件。

Sources