data-juicer: 一个使用可组合算子进行 AI 就绪型多模态数据集策展的云规模数据处理系统

data-juicer: 一个使用可组合算子进行 AI 就绪型多模态数据集策展的云规模数据处理系统

它解决了什么问题

Data-Juicer 解决了将原始、混乱的数据转化为高质量、AI 就绪型智能数据的挑战。它消除了在为基础模型、智能体系统和 RAG 索引清洗、合成和分析大规模数据集时,编写自定义“胶水代码”的需求。

它是如何工作的

它作为一个可组合的数据处理系统运行,采用包含 200 多个算子的模块化架构。用户可以通过 YAML recipes 或 Python 代码定义可复现的流水线,将这些算子链接在一起。该系统专为云原生可扩展性而设计,利用 Ray 进行跨数千个节点的分布式执行,并结合了自动算子融合和 CUDA 加速等优化技术,以处理 PB 级的数据集。

它是面向谁的

该工具专为 AI 研究人员和工程师设计,他们需要大规模地策展预训练语料库、准备微调数据、清洗智能体交互轨迹,或构建领域特定的 RAG 索引。

亮点

  • 海量算子库: 涵盖文本、图像、音频、视频和多模态数据的 200 多个算子。
  • 云规模性能: 能够在 50 个 Ray 节点上在 2 小时内处理 70B 个样本。
  • Recipe-First 工作流: 使用可版本化的 YAML 流水线进行可复现的数据策展。
  • 广泛的 AI 生命周期支持: 为基础模型预训练、智能体质量门控和具身智能 (VLA) 处理提供专门的工具。

Sources