machine-learning-for-trading: an end-to-end research-to-production pipeline for building and deploying ML-driven trading strategies

What it solves

它提供了一個全面的、端到端的框架，用於構建、測試和部署機器學習驅動的交易策略。該專案解決了理論 ML 模型與實時市場運作現實之間的差距，透過強制執行紀律嚴明的「從研究到生產」工作流程，並將交易成本、風險管理以及防止過擬合和數據洩漏的「證據邊界」納入考量。

該專案圍繞著一個從數據基礎設施到實時執行的結構化流水線展開：

Data Layer: 使用 Polars 進行快速操作，並透過 ml4t-data 函式庫整合了 19 個以上的數據提供商。
Feature Engineering: 使用 ml4t-engineer 實現了多種信號類型（動量、波動率、透過 FinBERT 進行的情感分析）和標籤（triple-barrier）。
Modeling: 採用了廣泛的工具包，包括梯度提升（XGBoost, LightGBM）、深度時間序列架構（PatchTST, Mamba）以及用於隔離處理效應的因果 ML。
Validation: 使用前向驗證（walk-forward cross-validation）和嚴謹的統計測試（Deflated Sharpe Ratio, White's Reality Check）來將調優與評估分離。
Implementation: 使用均值-變異數優化（mean-variance optimization）或分層風險平價（Hierarchical Risk Parity）將信號轉換為投資組合，並納入成本模型和風險覆蓋。
Advanced AI: 整合了用於 SEC filings 的 RAG、知識圖譜以及用於金融研究的多智能體系統。
Production: 透過經紀商整合（Interactive Brokers, Alpaca）進行部署，並具備如漂移檢測和斷路器等 MLOps 管理機制。

量化交易員、金融研究員和 ML 工程師，他們希望超越簡單的回測，構建可在各種資產類別（ETFs, Crypto, FX, Equities）中運行的、具備生產就緒且可審計的交易系統。

End-to-End Workflow: 涵蓋了從原始數據獲取到實時執行和監控的整個生命週期。
Rigorous Validation: 明確處理了金融回測中常見的多重測試和過擬合問題。
Diverse Model Toolkit: 包含從線性基準模型到最先進的深度學習和因果 ML。
Agentic Workflows: 特色功能包括使用 LangGraph 和 Claude SDK 的自主研究智能體和多智能體預測系統。
Production Libraries: 附帶六個專業的 Python 封裝包 (ml4t-data, ml4t-engineer, ml4t-models, ml4t-diagnostic, ml4t-backtest, ml4t-live)。