chonkie: 高速かつ効率的なRAGテキストチャンキングのための軽量インジェクションライブラリ

chonkie: 高速かつ効率的なRAGテキストチャンキングのための軽量インジェクションライブラリ

何を解決するか

Chonkieは、Retrieval-Augmented Generation (RAG) パイプラインのためにテキストをチャンクに分割するプロセスを簡素化し、加速させるために設計された軽量なインジェクションライブラリです。カスタムチャンカーを一から構築する必要性を排除し、大規模で肥大化したライブラリに関連するオーバーヘッドを削減します。

仕組み

Chonkieは、さまざまなチャンキング戦略と、これらの操作を連結するためのパイプラインシステムを提供します。テキストを分割する複数の方法をサポートしています:

  • Fixed-size/Token-based: TokenChunker または SIMD加速された FastChunker を使用。
  • Structural/Hierarchical: カスタマイズ可能なルールを持つ RecursiveChunker またはプログラミング言語用の CodeChunker を使用。
  • Semantic: 類似性に基づく SemanticChunker または LLM を使用して意味のある区切りを見つける SlumberChunker を使用。
  • Specialized: Markdownテーブル用の TableChunker およびニューラルモデル用の NeuralChunker

ユーザーは Pipeline を構築して、データを取得し、チャンク化し、洗練させ(例:埋め込みの追加やオーバーラップの結合)、ハンドシェイクを介してベクトルデータベースに直接送信することができます。

対象ユーザー

既存のベクトルストア、埋め込みプロバイダー、および LLM と簡単に統合できる、高速、効率的、かつ多言語(56言語をサポート)なテキスト分割ツールを必要とする RAG アプリケーション開発者。

ハイライト

  • 広範な統合: 10以上のベクトルデータベース(ChromaDB, Pinecone, Qdrant など)、16以上の埋め込みプロバイダー、および 5以上の LLM プロバイダーを含む 45以上の統合。
  • 高パフォーマンス: 競合する代替手段と比較して、パッケージサイズが大幅に小さく、ベンチマークで大幅に高速であることが示されています。
  • REST API サーバー: 任意のアプリケーションへの統合を容易にするために、セルフホスト可能な API として実行できます。
  • 柔軟なトークン化: tiktoken、Hugging Face、およびカスタムのトークンカウント関数を含むさまざまなトークナイザーをサポート。
  • Agent-Ready: Claude Code や Cursor のような AI コーディングエージェント用の公式スキルとプラグインを提供。

Sources