machine-learning-for-trading: ML 기반 트레이딩 전략 구축 및 배포를 위한 엔드투엔드 연구-프로덕션 파이프라인
machine-learning-for-trading: ML 기반 트레이딩 전략 구축 및 배포를 위한 엔드투엔드 연구-프로덕션 파이프라인
해결하는 문제
ML 기반 트레이딩 전략을 구축, 테스트 및 배포하기 위한 포괄적이고 엔드투엔드적인 프레임워크를 제공합니다. 이 프로젝트는 거래 비용, 리스크 관리, 그리고 과적합(overfitting) 및 데이터 누수(data leakage)를 방지하기 위한 "증거 경계(evidence boundary)"를 고려하는 규율 있는 연구-프로덕션 워크플로우를 강제함으로써 이론적인 ML 모델과 실제 시장의 운영 현실 사이의 간극을 해결합니다.
작동 방식
이 프로젝트는 데이터 인프라에서 실시간 실행에 이르기까지 구조화된 파이프라인을 중심으로 구성됩니다:
- 데이터 레이어: 빠른 조작을 위해 Polars를 사용하며
ml4t-data라이브러리를 통해 19개 이상의 데이터 제공업체를 통합합니다. - 피처 엔지니어링:
ml4t-engineer를 사용하여 다양한 신호 유형(모멘텀, 변동성, FinBERT를 통한 감성 분석) 및 레이블(triple-barrier)을 구현합니다. - 모델링: 그래디언트 부스팅(XGBoost, LightGBM), 딥 타임 시리즈 아키텍처(PatchTST, Mamba), 그리고 처치 효과(treatment effects)를 격리하기 위한 인과적 ML(causal ML)을 포함한 광범위한 툴킷을 채택합니다.
- 검증: 튜닝과 평가를 분리하기 위해 walk-forward 교차 검증과 엄격한 통계적 테스트(Deflated Sharpe Ratio, White's Reality Check)를 사용합니다.
- 구현: 평균-분산 최적화(mean-variance optimization) 또는 계층적 리스크 파리티(Hierarchical Risk Parity)를 사용하여 신호를 포트폴리오로 변환하며, 비용 모델과 리스크 오버레이를 통합합니다.
- 고급 AI: SEC 공시 자료를 위한 RAG, 지식 그래프, 그리고 금융 연구를 위한 멀티 에이전트 시스템을 통합합니다.
- 프로덕션: 드리프트 감지(drift detection) 및 서킷 브레이커(circuit breakers)와 같은 MLOps 거버넌스를 갖춘 브로커 통합(Interactive Brokers, Alpaca)을 통해 배포합니다.
대상 사용자
다양한 자산군(ETFs, Crypto, FX, Equities)에 걸쳐 단순한 백테스팅을 넘어 프로덕션 준비가 된, 감사 가능한 트레이딩 시스템을 구축하고자 하는 퀀트 트레이더, 금융 연구원, 그리고 ML 엔지니어입니다.
주요 특징
- 엔드투엔드 워크플로우: 원시 데이터 소싱부터 실시간 실행 및 모니터링까지 전체 라이프사이클을 다룹니다.
- 엄격한 검증: 금융 백테스팅에서 흔히 발생하는 다중 테스트(multiple-testing) 및 과적합 문제를 명시적으로 처리합니다.
- 다양한 모델 툴킷: 선형 베이스라인부터 최첨단 딥러닝 및 인과적 ML까지 모든 것을 포함합니다.
- 에이전틱 워크플로우: LangGraph 및 Claude SDK를 사용하는 자율 연구 에이전트 및 멀리 에이전트 예측 시스템을 특징으로 합니다.
- 프로덕션 라이브러리: 6개의 특화된 Python 패키지(
ml4t-data,ml4t-engineer,ml4t-models,ml4t-diagnostic,ml4t-backtest,ml4t-live)와 함께 제공됩니다.