synthetic-data-generator: 一个支持 GANs、LLMs 和十亿级数据集的隐私保护型表格数据生成器

synthetic-data-generator: 一个支持 GANs、LLMs 和十亿级数据集的隐私保护型表格数据生成器

它解决了什么问题

它解决了在不包含敏感信息的情况下,创建保留原始数据集统计特征的高质量结构化表格数据的挑战。这使得用户能够在遵守 GDPR 和 ADPPA 等隐私法规的同时,共享数据、训练模型并测试系统。

工作原理

SDG 提供了一个集成多种合成方法的框架:

  • 基于统计和 GAN 的模型:它实现了诸如 CTGAN、TVAE 和 GaussianCopula 等算法,以从现有数据中学习模式并生成合成版本。
  • 基于 LLM 的生成:它使用大语言模型(LLMs)仅基于元数据(无需训练数据)生成合成数据,或者执行“表外特征推理”(off-table feature inference),即 LLM 根据现有数据及其内部知识推断新列。
  • 数据处理流水线:专门的数据处理器(Data Processor)模块负责处理格式转换(例如 Datetime 列)、管理空值并执行预处理和后处理。

适用人群

  • 需要隐私保护数据集进行模型训练和调试的数据科学家和 ML 工程师。
  • 需要逼真的表格数据进行系统测试的软件开发人员。
  • 需要在团队或合作伙伴之间共享数据,且不违反隐私法的组织。

亮点

  • 大数据优化:针对内存效率进行了优化,特别支持使用 CTGAN 进行十亿级数据的处理。
  • 零数据合成:能够仅基于元数据使用 LLMs 生成表格数据。
  • 隐私特性:支持差分隐私和匿名化方法。
  • 可扩展架构:使用插件系统来添加新模型、数据连接器和处理步骤。

Sources