machine-learning-for-trading: 一个用于构建和部署 ML 驱动型交易策略的端到端研究到生产流水线

machine-learning-for-trading: 一个用于构建和部署 ML 驱动型交易策略的端到端研究到生产流水线

它解决了什么问题

它提供了一个全面的、端到端的框架,用于构建、测试和部署机器学习驱动的交易策略。该项目通过强制执行一种严谨的研究到生产的工作流,解决了理论 ML 模型与实时市场操作现实之间的差距,该工作流考虑了交易成本、风险管理以及防止过拟合和数据泄露的“证据边界”。

它是如何工作的

该项目围绕一个从数据基础设施到实时执行的结构化流水线展开:

  1. 数据层:使用 Polars 进行快速操作,并通过 ml4t-data 库集成了 19 个以上的数据提供商。
  2. 特征工程:使用 ml4t-engineer 实现多种信号类型(动量、波动率、通过 FinBERT 实现的情感分析)和标签(三重屏障法)。
  3. 建模:采用广泛的工具包,包括梯度提升(XGBoost, LightGBM)、深度时间序列架构(PatchTST, Mamba)以及用于隔离处理效应的因果 ML。
  4. 验证:使用前向行走交叉验证(walk-forward cross-validation)和严谨的统计测试(Deflated Sharpe Ratio, White's Reality Check)来将调优与评估分离。
  5. 实现:使用均值-方差优化或分层风险平价(Hierarchical Risk Parity)将信号转换为投资组合,并结合了成本模型和风险覆盖。
  6. 高级 AI:集成了用于 SEC 备案文件的 RAG、知识图谱以及用于金融研究的多智能体系统。
  7. 生产:通过经纪商集成(Interactive Brokers, Alpaca)进行部署,并具备漂移检测和熔断器等 MLOps 管理功能。

适合人群

量化交易员、金融研究员和 ML 工程师,他们希望超越简单的回测,在各种资产类别(ETFs, Crypto, FX, Equities)中构建生产就绪且可审计的交易系统。

亮点

  • 端到端工作流:涵盖从原始数据获取到实时执行和监控的整个生命周期。
  • 严谨的验证:明确处理金融回测中常见的多次测试和过拟合问题。
  • 多样化的模型工具包:包括从线性基准到最先进的深度学习和因果 ML。
  • 智能体工作流:具有使用 LangGraph 和 Claude SDK 的自主研究智能体和多智能体预测系统。
  • 生产级库:附带六个专门的 Python 包(ml4t-data, ml4t-engineer, ml4t-models, ml4t-diagnostic, ml4t-backtest, ml4t-live)。

Sources