fg-data-profiling: 一款用於全面數據集分析與品質警示的一行式探索性數據分析工具

fg-data-profiling: 一款用於全面數據集分析與品質警示的一行式探索性數據分析工具

它解決了什麼問題

fg-data-profiling 為探索性數據分析 (EDA) 提供了一個快速、一行式的解決方案。它擴展了 pandas df.describe() 的基本功能,以提供對數據集的全面分析,並可將結果匯出為 HTML 或 JSON 報告。

運作原理

該工具接收一個 pandas DataFrame (或透過 PySpark 支援的 Spark DataFrame) 並自動生成詳細的分析報告。它會進行類型推斷以檢測數據類型,並計算描述性統計、相關性以及數據品質警示。

目標對象

需要快速了解新數據集(包括時間序列和文本數據)的結構、品質和特徵,而無需編寫大量手動分析代碼的數據科學家和分析師。

重點功能

  • 全面分析:包括單變量分析(描述性統計、直方圖)、多變量分析(相關性、缺失數據)以及全局數據集概覽。
  • 數據品質警示:自動標記高相關性、偏態、缺失值和常數值等問題。
  • 專業化分析:專門支援時間序列(自相關、季節性)和文本分析(腳本、常見類別)。
  • 多功能輸出:報告可以匯出為 HTML 文件、JSON 字串,或直接在 Jupyter Notebooks 中渲染為互動式組件。
  • 可擴展性:包含對 PySpark 的支援,以處理更大的數據集。
  • 整合能力:可與 Great Expectations、Streamlit、Dash 等工具以及 Airflow 和 Kedro 等工作流編排器進行連接。

Sources