PyPOTS: 결측값이 있는 다변량 시계열 분석을 위한 머신러닝 툴박스
PyPOTS: 결측값이 있는 다변량 시계열 분석을 위한 머신러닝 툴박스
해결하는 문제
PyPOTS는 결측값이 포함된 실제 시계열 데이터(부분 관측 시계열, 또는 POTS)를 분석하는 문제를 다룹니다. 센서 고장이나 통신 오류로 인한 결측 데이터는 종종 고급 데이터 분석 및 머신러닝을 방해하며, 지금까지 이 분야에는 이러한 특정 요구 사항을 위한 전용의 통합된 툴킷이 부족했습니다.
작동 방식
PyPOTS는 결측값이 있는 다변량 시계열에 특화되어 조정된 광범위한 고전적 및 최첨단 머신러닝 알고리즘을 통합하는 포괄적인 Python 툴박스를 제공합니다. 모델 구현을 단순화하기 위해 통합된 API와 상세한 문서를 제공합니다. 원래 POTS를 위해 설계되지 않은 모델의 경우, 라이브러리는 특정 임베딩 전략과 학습 접근 방식(예: ORT+MIT)을 적용하여 결측 데이터와 호환되도록 만듭니다.
대상 사용자
이 도구는 지루한 데이터 전처리나 수동 알고리즘 구현에 과도한 시간을 소비하지 않고 결측치를 처리해야 하는 시계열 데이터 연구자 및 엔지니어를 위해 설계되었습니다.
주요 특징
- 다양한 작업 지원: 결측치 보간(imputation), 예측(forecasting), 분류(classification), 클러스터링(clustering), 이상 탐지(anomaly detection)를 지원합니다.
- 광범위한 알고리즘 라이브러리: 단순한 방법(mean/median)부터 고급 신경망, 시계열 파운데이션 모델(TSFM), 그리고 GPT4TS와 같은 대규모 언어 모델(LLM)에 이르기까지 방대한 범위의 모델을 포함합니다.
- 하이퍼파라미터 최적화: 신경망 모델 튜닝을 위한 Optuna 및 Microsoft NNI에 대한 통합 지원을 제공합니다.
- 생태계 통합: TSDB(데이터셋 로딩 용이성) 및 PyGrinder(MCAR, MAR, MNAR와 같은 결측 데이터 패턴 시뮬레이션)와 함께 작동합니다.
Sources
- undefinedWenjieDu/PyPOTS