data-juicer: composable operators を使用して AI-ready なマルチモーダルデータセットをキュレーションするためのクラウドスケール・データ処理システム

data-juicer: composable operators を使用して AI-ready なマルチモーダルデータセットをキュレーションするためのクラウドスケール・データ処理システム

何を解決するか

Data-Juicer は、生の、混沌としたデータを、高品質で AI-ready なインテリジェンスへと変換するという課題に対処します。基盤モデル、エージェントシステム、および RAG インデックスに必要とされる大規模なデータセットをクリーニング、合成、および分析する際に、カスタムの「glue code」を必要としないようにします。

仕組み

200 以上のオペレーターを使用したモジュール式アーキテクチャによる、構成可能なデータ処理システムとして機能します。ユーザーは YAML recipes または Python コードを介して、これらのオペレーターを連結して再現可能なパイプラインを定義できます。このシステムはクラウドネイティブなスケーラビリティのために設計されており、Ray を活用して数千のノードにわたる分散実行を実現し、自動オペレーター融合や CUDA 加速などの最適化を取り入れて PB スケールのデータセットを処理できます。

対象ユーザー

このツールは、プリトレーニング・コーパスのキュレーション、ファインチューニング・データの準備、エージェントのインタラクション・トレースのクリーニング、またはドメイン特化型の RAG インデックスを大規模に構築する必要がある AI 研究者およびエンジニア向けに設計されています。

ハイライト

  • Massive Operator Library: テキスト、画像、音声、ビデオ、およびマルチモーダル・データをカバーする 200 以上のオペレーター。
  • Cloud-Scale Performance: 50 個の Ray ノード上で 2 時間で 70B サンプルを処理可能。
  • Recipe-First Workflow: 再現可能なデータキュレーションのために、バージョン管理可能な YAML パイプラインを使用。
  • Broad AI Lifecycle Support: 基盤モデルのプリトレーニング、エージェントの品質ゲート、および Embodied AI (VLA) 処理に特化したツール。

Sources