chonkie: 一個用於快速且高效 RAG 文本分塊的輕量級攝取函式庫

chonkie: 一個用於快速且高效 RAG 文本分塊的輕量級攝取函式庫

它解決了什麼問題

Chonkie 是一個輕量級的攝取函式庫,旨在簡化並加速將文本拆分為塊(chunks)的過程,以用於檢索增強生成(RAG)流水線。它消除了從頭開始構建自定義分塊器的需求,並減少了與大型、臃腫函式庫相關的開銷。

運作方式

Chonkie 提供多種分塊策略和一個用於將這些操作串聯在一起的流水線系統。它支持多種文本拆分方法,包括:

  • 固定大小/基於 Token: 使用 TokenChunker 或經過 SIMD 加速的 FastChunker
  • 結構化/層級化: 使用 RecursiveChunker(具有可自定義的規則)或用於程式語言的 CodeChunker
  • 語義化: 使用 SemanticChunker(基於相似度)或 SlumberChunker(使用 LLM 來尋找有意義的斷點)。
  • 專業化: 用於 Markdown 表格的 TableChunker 以及用於神經網路模型的 NeuralChunker

用戶可以構建一個 Pipeline 來獲取數據、進行分塊、精煉(例如,添加嵌入或合併重疊部分),並通過「握手」直接將其發送到向量數據庫。

對象是誰

正在構建 RAG 應用程序的開發人員,他們需要一個快速、高效且支持多語言(支持 56 種語言)的文本拆分工具,該工具可以輕鬆地與現有的向量存儲、嵌入提供商和 LLM 集成。

重點亮點

  • 廣泛的集成: 超過 45 種集成,包括 10 多個向量數據庫(ChromaDB, Pinecone, Qdrant 等)、16 多個嵌入提供商和 5 多個 LLM 提供商。
  • 高性能: 基準測試顯示其速度顯著快於競爭對手,且套件大小更小。
  • REST API 伺服器: 可以作為自託管 API 運行,以便輕鬆集成到任何應用程序中。
  • 靈活的 Tokenization: 支持各種分詞器,包括 tiktoken, Hugging Face, 以及自定義的 Token 計數函數。
  • Agent 就緒: 為 Claude Code 和 Cursor 等 AI 編碼 Agent 提供官方技能和插件。

Sources