data-juicer: 一個使用可組合算子來策劃 AI 就緒型多模態數據集的雲端規模數據處理系統

data-juicer: 一個使用可組合算子來策劃 AI 就緒型多模態數據集的雲端規模數據處理系統

它解決了什麼問題

Data-Juicer 解決了將原始、混亂的數據轉化為高品質、AI 就緒型智能的挑戰。它消除了在清理、合成和分析基礎模型、智能體系統和 RAG 索引所需的大規模數據集時,對自定義「粘合代碼」的需求。

它是如何運作的

它作為一個可組合的數據處理系統運行,使用超過 200 個算子的模組化架構。用戶可以通過 YAML 配方或 Python 代碼定義可重現的流水線,將這些算子鏈接在一起。該系統專為雲端原生可擴展性而設計,利用 Ray 進行跨數千個節點的分佈式執行,並結合了自動算子融合和 CUDA 加速等優化技術,以處理 PB 級規模的數據集。

對象是誰

此工具專為 AI 研究人員和工程師設計,他們需要策劃預訓練語料庫、準備微調數據、清理智能體交互軌跡,或大規模構建領域特定 RAG 索引。

重點亮點

  • 海量算子庫:覆蓋文本、圖像、音頻、視頻和多模態數據的 200 多個算子。
  • 雲端規模性能:能夠在 50 個 Ray 節點上於 2 小時內處理 70B 樣本。
  • 配方優先的工作流:使用可版本化的 YAML 流水線進行可重現的數據策劃。
  • 廣泛的 AI 生命週期支持:專用於基礎模型預訓練、智能體質量門控和具身智能 (VLA) 處理的專業工具。

Sources