chonkie: 一個用於快速且高效 RAG 文本分塊的輕量級攝取函式庫
chonkie: 一個用於快速且高效 RAG 文本分塊的輕量級攝取函式庫
它解決了什麼問題
Chonkie 是一個輕量級的攝取函式庫,旨在簡化並加速將文本拆分為塊(chunks)的過程,以用於檢索增強生成(RAG)流水線。它消除了從頭開始構建自定義分塊器的需求,並減少了與大型、臃腫函式庫相關的開銷。
運作方式
Chonkie 提供多種分塊策略和一個用於將這些操作串聯在一起的流水線系統。它支持多種文本拆分方法,包括:
- 固定大小/基於 Token: 使用
TokenChunker或經過 SIMD 加速的FastChunker。 - 結構化/層級化: 使用
RecursiveChunker(具有可自定義的規則)或用於程式語言的CodeChunker。 - 語義化: 使用
SemanticChunker(基於相似度)或SlumberChunker(使用 LLM 來尋找有意義的斷點)。 - 專業化: 用於 Markdown 表格的
TableChunker以及用於神經網路模型的NeuralChunker。
用戶可以構建一個 Pipeline 來獲取數據、進行分塊、精煉(例如,添加嵌入或合併重疊部分),並通過「握手」直接將其發送到向量數據庫。
對象是誰
正在構建 RAG 應用程序的開發人員,他們需要一個快速、高效且支持多語言(支持 56 種語言)的文本拆分工具,該工具可以輕鬆地與現有的向量存儲、嵌入提供商和 LLM 集成。
重點亮點
- 廣泛的集成: 超過 45 種集成,包括 10 多個向量數據庫(ChromaDB, Pinecone, Qdrant 等)、16 多個嵌入提供商和 5 多個 LLM 提供商。
- 高性能: 基準測試顯示其速度顯著快於競爭對手,且套件大小更小。
- REST API 伺服器: 可以作為自託管 API 運行,以便輕鬆集成到任何應用程序中。
- 靈活的 Tokenization: 支持各種分詞器,包括 tiktoken, Hugging Face, 以及自定義的 Token 計數函數。
- Agent 就緒: 為 Claude Code 和 Cursor 等 AI 編碼 Agent 提供官方技能和插件。
Sources
- undefinedfeyninc/chonkie