data-juicer: composable operators를 사용하여 AI-ready 멀티모달 데이터셋을 큐레이션하는 클라우드 규모의 데이터 처리 시스템
data-juicer: composable operators를 사용하여 AI-ready 멀티모달 데이터셋을 큐레이션하는 클라우드 규모의 데이터 처리 시스템
해결하는 문제
Data-Juicer는 가공되지 않은 혼란스러운 데이터를 고품질의 AI-ready 지능으로 변환하는 과제를 해결합니다. 파운데이션 모델, 에이전트 시스템, RAG 인덱스를 위해 필요한 대규모 데이터셋을 정제, 합성 및 분석할 때 맞춤형 "glue code"를 작성할 필요를 없애줍니다.
작동 방식
200개 이상의 오퍼레이터(operators)로 구성된 모듈식 아키텍처를 사용하는 조합 가능한 데이터 처리 시스템으로 작동합니다. 사용자는 YAML 레시피 또는 Python 코드를 통해 이러한 오퍼레이터들을 체인으로 연결하여 재현 가능한 파이프라인을 정의할 수 있습니다. 이 시스템은 클라우드 네이티브 확장성을 위해 설계되었으며, 수천 개의 노드에 걸친 분산 실행을 위해 Ray를 활용하고, PB-scale 데이터셋을 처리하기 위해 자동 오퍼레이터 퓨전(operator fusion) 및 CUDA 가속과 같은 최적화를 포함합니다.
대상 사용자
이 도구는 사전 학습 코퍼스를 큐레이션하거나, 파인튜닝 데이터를 준비하거나, 에이전트 상호작용 트레이스를 정제하거나, 도메인 특화 RAG 인덱스를 대규모로 구축해야 하는 AI 연구원 및 엔지니어들을 위해 설계되었습니다.
주요 특징
- Massive Operator Library: 텍스트, 이미지, 오디오, 비디오, 멀티모달 데이터를 다루는 200개 이상의 오퍼레이터.
- Cloud-Scale Performance: 50개의 Ray 노드에서 2시간 내에 70B 샘플을 처리할 수 있는 성능.
- Recipe-First Workflow: 재현 가능한 데이터 큐레이션을 위해 버전 관리가 가능한 YAML 파이프라인을 사용.
- Broad AI Lifecycle Support: 파운데이션 모델 사전 학습, 에이전트 품질 게이팅, 그리고 Embodied AI (VLA) 처리를 위한 전문화된 도구.
Sources
- undefineddatajuicer/data-juicer