chonkie: 빠르고 효율적인 RAG 텍스트 청킹을 위한 경량 인제스션 라이브러리

chonkie: 빠르고 효율적인 RAG 텍스트 청킹을 위한 경량 인제스션 라이브러리

문제 해결

Chonkie는 검색 증강 생성(Retrieval-Augmented Generation, RAG) 파이프라인을 위해 텍스트를 청크로 분할하는 프로세스를 단순화하고 가속화하도록 설계된 경량 인제스션 라이브러리입니다. 처음부터 커스텀 청커를 구축할 필요를 없애고, 크고 비대한 라이브러리와 관련된 오버헤드를 줄여줍니다.

작동 방식

Chonkie는 다양한 청킹 전략과 이러한 작업들을 체인으로 연결할 수 있는 파이프라인 시스템을 제공합니다. 다음과 같은 다양한 텍스트 분할 방법을 지원합니다:

  • Fixed-size/Token-based: TokenChunker 또는 SIMD 가속을 사용하는 FastChunker를 사용합니다.
  • Structural/Hierarchical: (사용자 정의 규칙이 가능한) RecursiveChunker 또는 프로그래밍 언어를 위한 CodeChunker를 사용합니다.
  • Semantic: (유사도 기반의) SemanticChunker 또는 (LLM을 사용하여 의미 있는 끊김을 찾는) SlumberChunker를 사용합니다.
  • Specialized: 마크다운 테이블을 위한 TableChunker 및 신경망 모델을 위한 NeuralChunker를 사용합니다.

사용자는 Pipeline을 구축하여 데이터를 가져오고, 청킹하고, 정제하고(예: 임베딩 추가 또는 중첩 병합), "handshakes"를 통해 벡터 데이터베이스로 직접 전송할 수 있습니다.

대상 사용자

기존 벡터 스토어, 임베딩 제공업체 및 LLM과 쉽게 통합되는 빠르고 효율적이며 다국어(56개 언어 지원)를 지원하는 텍스트 분할 도구가 필요한 RAG 애플리케이션 개발자입니다.

주요 특징

  • 광범위한 통합: 10개 이상의 벡터 데이터베이스(ChromaDB, Pinecone, Qdrant 등), 16개 이상의 임베딩 제공업체, 5개 이상의 LLM 제공업체를 포함하여 45개 이상의 통합 기능을 제공합니다.
  • 높은 성능: 경쟁 제품보다 패키지 크기가 훨씬 작고 벤치마크 결과 훨씬 더 빠릅니다.
  • REST API 서버: 어떤 애플리케이션에도 쉽게 통합할 수 있도록 셀프 호스팅 API로 실행할 수 있습니다.
  • 유연한 토큰화: tiktoken, Hugging Face 및 사용자 정의 토큰 카운팅 함수를 포함한 다양한 토크나이저를 지원합니다.
  • Agent-Ready: Claude Code 및 Cursor와 같은 AI 코딩 에이전트를 위한 공식 스킬 및 플러그인을 제공합니다.

Sources