SDV: プライバシーを保護するテーブル形式の合成データを生成・評価するための機械学習ライブラリ

SDV: プライバシーを保護するテーブル形式の合成データを生成・評価するための機械学習ライブラリ

何を解決するか

SDVは、高品質なテーブル形式の合成データを作成するための包括的なツールキットを提供します。機密性の高い実世界の情報を公開することなく、テストや分析のために現実的なデータが必要であるという問題を解決し、ユーザーが匿名化を通じてプライバシーを維持しながらデータを共有または使用できるようにします。

仕組み

このライブラリは、さまざまな機械学習アルゴリズムを使用して、実際のデータセット内の統計的パターン、相関関係、および関係性を学習します。その後、これらのパターンを模倣して、新しい合成データの行を生成します。Gaussian Copulasのような古典的な統計的手法から、CTGANのようなディープラーニングモデルまで、複数のモデリング手法をサポートしています。

対象ユーザー

ソフトウェアのテスト、研究、またはプライバシーを保護するデータ共有のために、単一のテーブル、複数の接続されたテーブル、またはシーケンシャルなデータの合成バージョンを生成する必要があるデータサイエンティストや開発者。

ハイライト

  • 多様なモデリングオプション: データ合成のために、統計モデルとディープラーニングモデルの両方をサポートしています。
  • プライバシー重視: 機密性の高い列を匿名化し、ビジネスルールを論理的な制約として定義するためのツールが含まれています。
  • 包括的な評価: 品質レポートと視覚化を使用して、合成データを実データと比較するための組み込みツールを提供します。
  • 柔軟なデータ構造: 単一のテーブル、マルチテーブルのリレーショナルデータベース、およびシーケンシャル/時系列データの合成が可能です。

Sources