data-juicer: composable operators を使用して AI-ready なマルチモーダルデータセットをキュレーションするためのクラウドスケール・データ処理システム
data-juicer: composable operators を使用して AI-ready なマルチモーダルデータセットをキュレーションするためのクラウドスケール・データ処理システム
何を解決するか
Data-Juicer は、生の、混沌としたデータを、高品質で AI-ready なインテリジェンスへと変換するという課題に対処します。基盤モデル、エージェントシステム、および RAG インデックスに必要とされる大規模なデータセットをクリーニング、合成、および分析する際に、カスタムの「glue code」を必要としないようにします。
仕組み
200 以上のオペレーターを使用したモジュール式アーキテクチャによる、構成可能なデータ処理システムとして機能します。ユーザーは YAML recipes または Python コードを介して、これらのオペレーターを連結して再現可能なパイプラインを定義できます。このシステムはクラウドネイティブなスケーラビリティのために設計されており、Ray を活用して数千のノードにわたる分散実行を実現し、自動オペレーター融合や CUDA 加速などの最適化を取り入れて PB スケールのデータセットを処理できます。
対象ユーザー
このツールは、プリトレーニング・コーパスのキュレーション、ファインチューニング・データの準備、エージェントのインタラクション・トレースのクリーニング、またはドメイン特化型の RAG インデックスを大規模に構築する必要がある AI 研究者およびエンジニア向けに設計されています。
ハイライト
- Massive Operator Library: テキスト、画像、音声、ビデオ、およびマルチモーダル・データをカバーする 200 以上のオペレーター。
- Cloud-Scale Performance: 50 個の Ray ノード上で 2 時間で 70B サンプルを処理可能。
- Recipe-First Workflow: 再現可能なデータキュレーションのために、バージョン管理可能な YAML パイプラインを使用。
- Broad AI Lifecycle Support: 基盤モデルのプリトレーニング、エージェントの品質ゲート、および Embodied AI (VLA) 処理に特化したツール。
Sources
- undefineddatajuicer/data-juicer