PyPOTS: 欠損値のある多変量時系列データを分析するための機械学習ツールボックス

PyPOTS: 欠損値のある多変量時系列データを分析するための機械学習ツールボックス

何を解決するか

PyPOTSは、欠損値を含む実世界の時系列データ(部分観測時系列、またはPOTS)の分析という課題に対処します。センサーの故障や通信エラーによって引き起こされる欠損データは、しばしば高度なデータ分析や機械学習を妨げますが、これまでこの分野には、これらの特定のニーズに特化した、統一された専用のツールキットが不足していました。

仕組み

PyPOTSは、欠損値のある多変量時系列データに特化して適応させた、幅広い古典的および最先端の機械学習アルゴリズムを統合した、包括的なPythonツールボックスを提供します。統一されたAPIと詳細なドキュメントを提供することで、これらのモデルの実装を簡素化します。もともとPOTS向けに設計されていないモデルに対しては、ライブラリが特定の埋め込み戦略や学習アプローチ(ORT+MITなど)を適用して、欠損データとの互換性を持たせます。

対象者

退屈なデータ前処理や手動でのアルゴリズム実装に過度な時間を費やすことなく、欠損値を処理する必要がある時系列データを取り扱う研究者やエンジニア向けに設計されています。

ハイライト

  • 多様なタスクのサポート: 補完(imputation)、予測(forecasting)、分類(classification)、クラスタリング(clustering)、および異常検知(anomaly detection)をサポートします。
  • 広範なアルゴリズムライブラリ: 単純な手法(平均/中央値)から、高度なニューラルネットワーク、時系列基盤モデル(TSFM)、およびGPT4TSのような大規模言語モデル(LLM)まで、広範なモデルを含んでいます。
  • ハイパーパラメータ最適化: ニューラルネットワークモデルのチューニングのために、OptunaおよびMicrosoft NNIの統合サポートを提供します。
  • エコシステムとの統合: TSDB(データセットの簡単なロード用)およびPyGrinder(MCAR、MAR、MNARなどの欠損パターンをシミュレートするため)と連携して動作します。

Sources