chonkie: 一个用于快速高效 RAG 文本分块的轻量级摄取库
chonkie: 一个用于快速高效 RAG 文本分块的轻量级摄取库
它解决了什么问题
Chonkie 是一个轻量级摄取库,旨在简化并加速为检索增强生成 (RAG) 流水线将文本拆分为块的过程。它消除了从头开始构建自定义分块器的需求,并减少了与大型、臃肿库相关的开销。
工作原理
Chonkie 提供多种分块策略和用于将这些操作链接在一起的流水线系统。它支持多种文本拆分方法,包括:
- 固定大小/基于 Token: 使用
TokenChunker或 SIMD 加速的FastChunker。 - 结构化/层级化: 使用
RecursiveChunker(具有可自定义规则)或用于编程语言的CodeChunker。 - 语义化: 使用
SemanticChunker(基于相似度)或SlumberChunker(使用 LLM 来寻找有意义的分隔点)。 - 专业化: 用于 Markdown 表格的
TableChunker和用于神经模型的NeuralChunker。
用户可以构建一个 Pipeline 来获取数据、对其进行分块、进行细化(例如,添加嵌入或合并重叠部分),并直接通过 "handshakes" 将其发送到向量数据库。
适用人群
构建 RAG 应用的开发者,他们需要一个快速、高效且支持多语言(支持 56 种语言)的文本拆分工具,该工具可以轻松地与现有的向量存储、嵌入提供商和 LLM 集成。
亮点
- 广泛的集成: 超过 45 种集成,包括 10 多种向量数据库 (ChromaDB, Pinecone, Qdrant, 等),16 多种嵌入提供商,以及 5 多种 LLM 提供商。
- 高性能: 基准测试显示,其包大小比竞争对手更小,且速度显著更快。
- REST API 服务器: 可以作为自托管 API 运行,以便轻松集成到任何应用中。
- 灵活的 Tokenization: 支持各种分词器,包括 tiktoken, Hugging Face, 和自定义 Token 计数函数。
- Agent 就绪: 为 Claude Code 和 Cursor 等 AI 编程 Agent 提供官方技能和插件。
Sources
- undefinedfeyninc/chonkie