chonkie: 一個用於快速且高效 RAG 文本分塊的輕量級攝取函式庫

chonkie: 一個用於快速且高效 RAG 文本分塊的輕量級攝取函式庫

它解決了什麼問題

Chonkie 是一個輕量級的攝取函式庫，旨在簡化並加速將文本拆分為塊（chunks）的過程，以用於檢索增強生成（RAG）流水線。它消除了從頭開始構建自定義分塊器的需求，並減少了與大型、臃腫函式庫相關的開銷。

運作方式

Chonkie 提供多種分塊策略和一個用於將這些操作串聯在一起的流水線系統。它支持多種文本拆分方法，包括：

固定大小/基於 Token： 使用 TokenChunker 或經過 SIMD 加速的 FastChunker。
結構化/層級化： 使用 RecursiveChunker（具有可自定義的規則）或用於程式語言的 CodeChunker。
語義化： 使用 SemanticChunker（基於相似度）或 SlumberChunker（使用 LLM 來尋找有意義的斷點）。
專業化： 用於 Markdown 表格的 TableChunker 以及用於神經網路模型的 NeuralChunker。

用戶可以構建一個 Pipeline 來獲取數據、進行分塊、精煉（例如，添加嵌入或合併重疊部分），並通過「握手」直接將其發送到向量數據庫。

對象是誰

正在構建 RAG 應用程序的開發人員，他們需要一個快速、高效且支持多語言（支持 56 種語言）的文本拆分工具，該工具可以輕鬆地與現有的向量存儲、嵌入提供商和 LLM 集成。

重點亮點

廣泛的集成： 超過 45 種集成，包括 10 多個向量數據庫（ChromaDB, Pinecone, Qdrant 等）、16 多個嵌入提供商和 5 多個 LLM 提供商。
高性能： 基準測試顯示其速度顯著快於競爭對手，且套件大小更小。
REST API 伺服器： 可以作為自託管 API 運行，以便輕鬆集成到任何應用程序中。
靈活的 Tokenization： 支持各種分詞器，包括 tiktoken, Hugging Face, 以及自定義的 Token 計數函數。
Agent 就緒： 為 Claude Code 和 Cursor 等 AI 編碼 Agent 提供官方技能和插件。

Sources

undefinedfeyninc/chonkie