fg-data-profiling: 包括的なデータセットプロファイリングと品質アラートのためのワンライン探索的データ解析ツール
fg-data-profiling: 包括的なデータセットプロファイリングと品質アラートのためのワンライン探索的データ解析ツール
何を解決するか
fg-data-profiling は、探索的データ解析 (EDA) のための高速でワンラインのソリューションを提供します。pandas の df.describe() の基本機能を拡張し、データセットの包括的な分析を提供し、HTML または JSON レポートとしてエクスポートできます。
仕組み
このツールは pandas DataFrame (または PySpark サポートを介した Spark DataFrame) を受け取り、詳細なプロファイリングレポートを自動的に生成します。型推論を実行してデータ型を検出し、記述統計、相関関係、およびデータ品質の警告を計算します。
対象ユーザー
時系列データやテキストデータを含む新しいデータセットの構造、品質、および特性を、広範な手動解析コードを書くことなく迅速に理解する必要があるデータサイエンティストやアナリスト。
ハイライト
- 包括的な分析: 単変量解析 (記述統計、ヒストグラム)、多変量解析 (相関関係、欠損値)、およびデータセット全体の概要を含みます。
- データ品質アラート: 高い相関、歪度、欠損値、および定数値などの問題を自動的にフラグ立てします。
- 特化型プロファイリング: 時系列 (自己相関、季節性) およびテキスト分析 (スクリプト、一般的なカテゴリ) を専用にサポートしています。
- 多用途な出力: レポートは HTML ファイル、JSON 文字列、または Jupyter Notebooks 内で直接インタラクティブなウィジェットとしてレンダリングできます。
- スケーラビリティ: より大きなデータセットを扱うための PySpark サポートが含まれています。
- 統合: Great Expectations、Streamlit、Dash、および Airflow や Kedro のようなワークフローオーケストレーターと連携します。