fg-data-profiling: 一个用于全面数据集分析和质量警报的一行式探索性数据分析工具
fg-data-profiling: 一个用于全面数据集分析和质量警报的一行式探索性数据分析工具
它解决了什么问题
fg-data-profiling 为探索性数据分析 (EDA) 提供了一个快速、一行式的解决方案。它扩展了 pandas df.describe() 的基本功能,以提供对数据集的全面分析,并可以导出为 HTML 或 JSON 报告。
工作原理
该工具接收一个 pandas DataFrame (或通过 PySpark 支持的 Spark DataFrame) 并自动生成详细的分析报告。它执行类型推断以检测数据类型,并计算描述性统计、相关性以及数据质量警告。
适用人群
数据科学家和分析师需要快速了解新数据集(包括时间序列和文本数据)的结构、质量和特征,而无需编写大量的手动分析代码。
亮点
- 全面分析:包括单变量分析(描述性统计、直方图)、多变量分析(相关性、缺失数据)以及全局数据集概览。
- 数据质量警报:自动标记高相关性、偏度、缺失值和常数值等问题。
- 专业化分析:专门支持时间序列(自相关、季节性)和文本分析(脚本、常见类别)。
- 多功能输出:报告可以导出为 HTML 文件、JSON 字符串,或直接在 Jupyter Notebooks 中渲染为交互式组件。
- 可扩展性:包含对 PySpark 的支持,以处理更大的数据集。
- 集成:可与 Great Expectations、Streamlit、Dash 以及工作流编排器如 Airflow 和 Kedro 等工具连接。