synthetic-data-generator: GANs、LLMs、および数十億規模のデータセットをサポートするプライバシー保護型表形式データ生成器

synthetic-data-generator: GANs、LLMs、および数十億規模のデータセットをサポートするプライバシー保護型表形式データ生成器

解決する課題

機密情報を含まずに、元のデータセットの統計的特性を保持した高品質な構造化表形式データを作成するという課題に対処します。これにより、ユーザーはGDPRやADPPAなどのプライバシー規制を遵守しながら、データの共有、モデルのトレーニング、およびシステムのテストを行うことができます。

仕組み

SDGは、複数の合成アプローチを統合するフレームワークを提供します：

統計およびGANベースのモデル: CTGAN、TVAE、およびGaussianCopulaなどのアルゴリズムを実装しており、既存のデータからパターンを学習し、合成バージョンを生成します。
LLMベースの生成: 大規模言語モデル（LLM）を使用して、メタデータのみに基づいて（トレーニングデータを必要とせずに）合成データを生成するか、または既存のデータとその内部知識に基づいてLLMが新しい列を推論する「off-table feature inference」を実行します。
データ処理パイプライン: 専用のData Processorモジュールが、形式変換（例：Datetime列）、null値の管理、および前処理・後処理を処理します。

対象ユーザー

モデルのトレーニングやデバッグのために、プライバシー保護されたデータセットを必要とするデータサイエンティストおよびMLエンジニア。
システムテストのために、現実的な表形式データを必要とするソフトウェア開発者。
プライバシー法に違反することなく、チーム間やパートナー間でデータを共有する必要がある組織。

ハイライト

ビッグデータ最適化: メモリ効率のために最適化されており、特にCTGANを使用して数十億レベルのデータ処理をサポートします。
ゼロデータ合成: メタデータのみに基づいてLLMを使用して表形式データを生成する能力。
プライバシー機能: 差分プライバシー（differential privacy）および匿名化手法をサポートします。
拡張可能なアーキテクチャ: 新しいモデル、データコネクタ、および処理ステップを追加するためのプラグインシステムを使用しています。

Sources

undefinedhitsz-ids/synthetic-data-generator