machine-learning-for-trading: ML主導のトレーディング戦略を構築・デプロイするためのエンドツーエンドのリサーチ・プロダクション・パイプライン
machine-learning-for-trading: ML主導のトレーディング戦略を構築・デプロイするためのエンドツーエンドのリサーチ・プロダクション・パイプライン
解決する課題
ML主導のトレーディング戦略を構築、テスト、およびデプロイするための、包括的でエンドツーエンドのフレームワークを提供します。このプロジェクトは、取引コスト、リスク管理、および過学習やデータリークを防ぐための「エビデンス境界(evidence boundary)」を考慮した規律あるリサーチ・プロダクション・ワークフローを強制することで、理論的なMLモデルとライブ市場の運用実態との間のギャップを埋めます。
仕組み
このプロジェクトは、データインフラからライブ実行へと移行する構造化されたパイプラインを中心に構成されています。
- データレイヤー: 高速な操作のために Polars を使用し、
ml4t-dataライブラリを介して19以上のデータプロバイダーを統合します。 - 特徴量エンジニアリング:
ml4t-engineerを使用して、さまざまなシグナルタイプ(モメンタム、ボラティリティ、FinBERT によるセンチメント)とラベル(triple-barrier)を実装します。 - モデリング: 勾配ブースティング(XGBoost, LightGBM)、深層時系列アーキテクチャ(PatchTST, Mamba)、および処置効果を分離するための因果ML(causal ML)を含む、幅広いツールキットを採用しています。
- バリデーション: ウォークフォワード交差検証と厳格な統計テスト(Deflated Sharpe Ratio, White's Reality Check)を使用して、チューニングと評価を分離します。
- 実装: 平均分散最適化または Hierarchical Risk Parity を使用してシグナルをポートフォリオに変換し、コストモデルとリスクオーバーレイを組み込みます。
- 高度なAI: SEC提出書類のための RAG、知識グラフ、および金融リサーチのためのマルチエージェントシステムを統合します。
- プロダクション: ドリフト検出やサーキットブレーカーなどの MLOps ガバナンスを備えたブローカー統合(Interactive Brokers, Alpaca)を介してデプロイします。
対象者
クオンツトレーダー、金融リサーチャー、および ML エンジニアで、単純なバックテストを超えて、さまざまな資産クラス(ETFs, Crypto, FX, Equities)にわたるプロダクション対応の監査可能なトレーディングシステムを構築したいと考えている方。
ハイライト
- エンドツーエンドのワークフロー: 生データの調達からライブ実行およびモニタリングまでのライフサイクル全体をカバーします。
- 厳格なバリデーション: 金融バックテストで一般的な多重テスト問題や過学習の問題を明示的に扱います。
- 多様なモデルツールキット: 線形ベースラインから最先端のディープラーニングおよび因果MLまで、あらゆるものを含みます。
- エージェンティック・ワークフロー: LangGraph と Claude SDK を使用した自律的なリサーチエージェントとマルチエージェント予測システムを特徴としています。
- プロダクション用ライブラリ: 6つの特化型 Python パッケージ(
ml4t-data,ml4t-engineer,ml4t-models,ml4t-diagnostic,ml4t-backtest,ml4t-live)が付属しています。