machine-learning-for-trading: 一个用于构建和部署 ML 驱动型交易策略的端到端研究到生产流水线

它解决了什么问题

它提供了一个全面的、端到端的框架，用于构建、测试和部署机器学习驱动的交易策略。该项目通过强制执行一种严谨的研究到生产的工作流，解决了理论 ML 模型与实时市场操作现实之间的差距，该工作流考虑了交易成本、风险管理以及防止过拟合和数据泄露的“证据边界”。

该项目围绕一个从数据基础设施到实时执行的结构化流水线展开：

数据层：使用 Polars 进行快速操作，并通过 ml4t-data 库集成了 19 个以上的数据提供商。
特征工程：使用 ml4t-engineer 实现多种信号类型（动量、波动率、通过 FinBERT 实现的情感分析）和标签（三重屏障法）。
建模：采用广泛的工具包，包括梯度提升（XGBoost, LightGBM）、深度时间序列架构（PatchTST, Mamba）以及用于隔离处理效应的因果 ML。
验证：使用前向行走交叉验证（walk-forward cross-validation）和严谨的统计测试（Deflated Sharpe Ratio, White's Reality Check）来将调优与评估分离。
实现：使用均值-方差优化或分层风险平价（Hierarchical Risk Parity）将信号转换为投资组合，并结合了成本模型和风险覆盖。
高级 AI：集成了用于 SEC 备案文件的 RAG、知识图谱以及用于金融研究的多智能体系统。
生产：通过经纪商集成（Interactive Brokers, Alpaca）进行部署，并具备漂移检测和熔断器等 MLOps 管理功能。

量化交易员、金融研究员和 ML 工程师，他们希望超越简单的回测，在各种资产类别（ETFs, Crypto, FX, Equities）中构建生产就绪且可审计的交易系统。

端到端工作流：涵盖从原始数据获取到实时执行和监控的整个生命周期。
严谨的验证：明确处理金融回测中常见的多次测试和过拟合问题。
多样化的模型工具包：包括从线性基准到最先进的深度学习和因果 ML。
智能体工作流：具有使用 LangGraph 和 Claude SDK 的自主研究智能体和多智能体预测系统。
生产级库：附带六个专门的 Python 包（ml4t-data, ml4t-engineer, ml4t-models, ml4t-diagnostic, ml4t-backtest, ml4t-live）。