synthetic-data-generator: 一个支持 GANs、LLMs 和十亿级数据集的隐私保护型表格数据生成器

synthetic-data-generator: 一个支持 GANs、LLMs 和十亿级数据集的隐私保护型表格数据生成器

它解决了什么问题

它解决了在不包含敏感信息的情况下，创建保留原始数据集统计特征的高质量结构化表格数据的挑战。这使得用户能够在遵守 GDPR 和 ADPPA 等隐私法规的同时，共享数据、训练模型并测试系统。

工作原理

SDG 提供了一个集成多种合成方法的框架：

基于统计和 GAN 的模型：它实现了诸如 CTGAN、TVAE 和 GaussianCopula 等算法，以从现有数据中学习模式并生成合成版本。
基于 LLM 的生成：它使用大语言模型（LLMs）仅基于元数据（无需训练数据）生成合成数据，或者执行“表外特征推理”（off-table feature inference），即 LLM 根据现有数据及其内部知识推断新列。
数据处理流水线：专门的数据处理器（Data Processor）模块负责处理格式转换（例如 Datetime 列）、管理空值并执行预处理和后处理。

适用人群

需要隐私保护数据集进行模型训练和调试的数据科学家和 ML 工程师。
需要逼真的表格数据进行系统测试的软件开发人员。
需要在团队或合作伙伴之间共享数据，且不违反隐私法的组织。

亮点

大数据优化：针对内存效率进行了优化，特别支持使用 CTGAN 进行十亿级数据的处理。
零数据合成：能够仅基于元数据使用 LLMs 生成表格数据。
隐私特性：支持差分隐私和匿名化方法。
可扩展架构：使用插件系统来添加新模型、数据连接器和处理步骤。

Sources

undefinedhitsz-ids/synthetic-data-generator