synthetic-data-generator: GANs, LLMs, 그리고 10억 규모의 데이터셋을 지원하는 개인정보 보호형 정형 데이터 생성기

synthetic-data-generator: GANs, LLMs, 그리고 10억 규모의 데이터셋을 지원하는 개인정보 보호형 정형 데이터 생성기

해결하는 문제

민감한 정보를 포함하지 않으면서 원본 데이터셋의 통계적 특성을 유지하는 고품질의 구조화된 정형 데이터를 생성해야 하는 과제를 해결합니다. 이를 통해 사용자는 GDPR 및 ADPPA와 같은 개인정보 보호 규정을 준수하면서 데이터를 공유하고, 모델을 학습시키며, 시스템을 테스트할 수 있습니다.

작동 방식

SDG는 다음과 같이 여러 합성 방식을 통합하는 프레임워크를 제공합니다:

통계 및 GAN 기반 모델: CTGAN, TVAE, GaussianCopula와 같은 알고리즘을 구현하여 기존 데이터로부터 패턴을 학습하고 합성 버전을 생성합니다.
LLM 기반 생성: 대규모 언어 모델(LLM)을 사용하여 메타데이터만을 기반으로(학습 데이터 없이) 합성 데이터를 생성하거나, LLM이 기존 데이터와 내부 지식을 바탕으로 새로운 열을 추론하는 "off-table feature inference"를 수행합니다.
데이터 처리 파이프라인: 전용 Data Processor 모듈이 형식 변환(예: Datetime 열), null 값 관리, 전처리 및 후처리를 처리합니다.

대상 사용자

모델 학습 및 디버깅을 위해 개인정보가 보호되는 데이터셋이 필요한 데이터 과학자 및 ML 엔지니어.
시스템 테스트를 위해 현실적인 정형 데이터가 필요한 소프트웨어 개발자.
개인정보 보호법을 위반하지 않으면서 팀 간 또는 파트너 간에 데이터를 공유해야 하는 조직.

주요 특징

빅데이터 최적화: 메모리 효율성을 위해 최적화되었으며, 특히 CTGAN을 사용하여 10억 단위의 데이터 처리를 지원합니다.
Zero-Data 합성: 메타데이터만을 기반으로 LLM을 사용하여 정형 데이터를 생성할 수 있는 능력.
개인정보 보호 기능: 차분 프라이버시(differential privacy) 및 익명화 방법을 지원합니다.
확장 가능한 아키텍처: 새로운 모델, 데이터 커넥터 및 처리 단계를 추가하기 위한 플러그인 시스템을 사용합니다.

Sources

undefinedhitsz-ids/synthetic-data-generator