synthetic-data-generator: 一個支援 GANs、LLMs 與十億級數據集的隱私保護表格數據生成器
synthetic-data-generator: 一個支援 GANs、LLMs 與十億級數據集的隱私保護表格數據生成器
它解決了什麼問題
它解決了在不包含敏感資訊的情況下,建立能保留原始數據集統計特性的高品質結構化表格數據的挑戰。這讓使用者能夠在符合 GDPR 與 ADPPA 等隱私法規的同時,進行數據共享、模型訓練與系統測試。
運作原理
SDG 提供了一個整合多種合成方法的框架:
- 基於統計與 GAN 的模型:它實作了如 CTGAN、TVAE 與 GaussianCopula 等演算法,從現有數據中學習模式並生成合成版本。
- 基於 LLM 的生成:它使用大型語言模型 (LLMs) 僅根據元數據 (metadata) 生成合成數據(無需訓練數據),或執行「表外特徵推論」(off-table feature inference),即由 LLM 根據現有數據及其內部知識推論出新欄位。
- 數據處理流水線:專用的 Data Processor 模組處理格式轉換(例如 Datetime 欄位)、管理空值,並執行前處理與後處理。
對象是誰
- 需要隱私保護數據集進行模型訓練與除錯的數據科學家與 ML 工程師。
- 需要真實表格數據進行系統測試的軟體開發人員。
- 需要在不違反隱私法規的情況下,於團隊或合作夥伴之間共享數據的組織。
重點特色
- 大數據優化:針對記憶體效率進行了優化,特別是支援使用 CTGAN 進行十億級數據處理。
- 零數據合成:能夠僅根據元數據使用 LLMs 生成表格數據。
- 隱私功能:支援差分隱私 (differential privacy) 與匿名化方法。
- 可擴展架構:使用插件系統來新增模型、數據連接器與處理步驟。
Sources
- undefinedhitsz-ids/synthetic-data-generator