fg-data-profiling: 포괄적인 데이터셋 프로파일링 및 품질 경고를 위한 한 줄짜리 탐색적 데이터 분석 도구
fg-data-profiling: 포괄적인 데이터셋 프로파일링 및 품질 경고를 위한 한 줄짜리 탐색적 데이터 분석 도구
해결하는 문제
fg-data-profiling은 탐색적 데이터 분석(EDA)을 위한 빠르고 간편한 한 줄짜리 솔루션을 제공합니다. pandas의 df.describe() 기본 기능을 확장하여 데이터셋에 대한 포괄적인 분석을 제공하며, 이를 HTML 또는 JSON 보고서로 내보낼 수 있습니다.
작동 방식
이 도구는 pandas DataFrame(또는 PySpark 지원을 통한 Spark DataFrame)을 입력받아 자동으로 상세한 프로파일링 보고서를 생성합니다. 데이터 타입을 감지하기 위해 타입 추론을 수행하며, 기술 통계량, 상관관계, 데이터 품질 경고를 계산합니다.
대상 사용자
방대한 수동 분석 코드를 작성하지 않고도 시계열 및 텍스트 데이터를 포함한 새로운 데이터셋의 구조, 품질 및 특성을 빠르게 파악해야 하는 데이터 과학자 및 분석가.
주요 특징
- 포괄적인 분석: 단변량 분석(기술 통계량, 히스토그램), 다변량 분석(상관관계, 결측치), 그리고 데이터셋 전체 개요를 포함합니다.
- 데이터 품질 경고: 높은 상관관계, 왜도(skewness), 결측치, 상수 값과 같은 문제를 자동으로 표시합니다.
- 특화된 프로파일링: 시계열(자기 상관, 계절성) 및 텍스트 분석(스크립트, 일반적인 카테고리)을 위한 전용 지원을 제공합니다.
- 다양한 출력 형식: 보고서는 HTML 파일, JSON 문자열로 내보내거나 Jupyter Notebooks 내에서 대화형 위젯으로 직접 렌더링할 수 있습니다.
- 확장성: 더 큰 데이터셋을 처리하기 위해 PySpark 지원을 포함합니다.
- 통합: Great Expectations, Streamlit, Dash와 같은 도구 및 Airflow, Kedro와 같은 워크플로우 오케스트레이터와 연결됩니다.