SDV: 개인정보를 보호하는 테이블형 합성 데이터를 생성하고 평가하기 위한 머신러닝 라이브러리

SDV: 개인정보를 보호하는 테이블형 합성 데이터를 생성하고 평가하기 위한 머신러닝 라이브러리

해결하는 문제

SDV는 고품질의 테이블형 합성 데이터를 생성하기 위한 종합적인 툴킷을 제공합니다. 이는 민감한 실제 정보를 노출하지 않으면서 테스트나 분석을 위해 현실적인 데이터가 필요한 문제를 해결하며, 사용자가 익명화를 통해 개인정보를 유지하면서 데이터를 공유하거나 사용할 수 있도록 합니다.

작동 방식

이 라이브러리는 다양한 머신러닝 알고리즘을 사용하여 실제 데이터셋 내의 통계적 패턴, 상관관계 및 관계를 학습합니다. 그런 다음 이러한 패턴을 모방하여 새로운 합성 데이터 행을 생성합니다. Gaussian Copulas와 같은 고전적인 통계적 방법부터 CTGAN과 같은 딥러닝 모델까지 다양한 모델링 접근 방식을 지원합니다.

대상 사용자

소프트웨어 테스트, 연구 또는 개인정보를 보호하는 데이터 공유를 위해 단일 테이블, 여러 개의 연결된 테이블 또는 순차적 데이터의 합성 버전을 생성해야 하는 데이터 과학자와 개발자.

주요 특징

  • 다양한 모델링 옵션: 데이터 합성을 위한 통계 및 딥러닝 모델을 모두 지원합니다.
  • 개인정보 보호 중심: 민감한 컬럼을 익명화하고 비즈니스 규칙을 논리적 제약 조건으로 정의하는 도구를 포함합니다.
  • 포괄적인 평가: 품질 보고서와 시각화를 사용하여 합성 데이터를 실제 데이터와 비교하는 내장 도구를 제공합니다.
  • 유연한 데이터 구조: 단일 테이블, 다중 테이블 관계형 데이터베이스 및 순차적/시계열 데이터를 합성할 수 있습니다.

Sources