synthetic-data-generator: 一个支持 GANs、LLMs 和十亿级数据集的隐私保护型表格数据生成器
synthetic-data-generator: 一个支持 GANs、LLMs 和十亿级数据集的隐私保护型表格数据生成器
它解决了什么问题
它解决了在不包含敏感信息的情况下,创建保留原始数据集统计特征的高质量结构化表格数据的挑战。这使得用户能够在遵守 GDPR 和 ADPPA 等隐私法规的同时,共享数据、训练模型并测试系统。
工作原理
SDG 提供了一个集成多种合成方法的框架:
- 基于统计和 GAN 的模型:它实现了诸如 CTGAN、TVAE 和 GaussianCopula 等算法,以从现有数据中学习模式并生成合成版本。
- 基于 LLM 的生成:它使用大语言模型(LLMs)仅基于元数据(无需训练数据)生成合成数据,或者执行“表外特征推理”(off-table feature inference),即 LLM 根据现有数据及其内部知识推断新列。
- 数据处理流水线:专门的数据处理器(Data Processor)模块负责处理格式转换(例如 Datetime 列)、管理空值并执行预处理和后处理。
适用人群
- 需要隐私保护数据集进行模型训练和调试的数据科学家和 ML 工程师。
- 需要逼真的表格数据进行系统测试的软件开发人员。
- 需要在团队或合作伙伴之间共享数据,且不违反隐私法的组织。
亮点
- 大数据优化:针对内存效率进行了优化,特别支持使用 CTGAN 进行十亿级数据的处理。
- 零数据合成:能够仅基于元数据使用 LLMs 生成表格数据。
- 隐私特性:支持差分隐私和匿名化方法。
- 可扩展架构:使用插件系统来添加新模型、数据连接器和处理步骤。
Sources
- undefinedhitsz-ids/synthetic-data-generator