SynapseML: Apache Spark上で分散型MLパイプラインを構築するためのスケーラブルな機械学習ライブラリ

SynapseML: Apache Spark上で分散型MLパイプラインを構築するためのスケーラブルな機械学習ライブラリ

何を解決するか

SynapseMLは、大規模にスケーラブルな機械学習パイプラインの作成を簡素化します。テキスト分析、コンピュータビジョン、異常検知などのタスク向けに、リソースを無駄にすることなく、単一ノードから弾力的にリサイズ可能なクラスターまで拡張できるインテリジェントなシステムを構築することを可能にします。

仕組み

Apache Sparkの分散コンピューティングフレームワーク上に構築されたSynapseMLは、SparkML/MLLibと同じAPIを共有する、構成可能で分散型のAPIを提供します。これにより、既存のSparkワークフローにシームレスに組み込むことができます。さまざまなデータベース、ファイルシステム、およびクラウドデータストアを抽象化し、Python、R、Scala、Java、および.NETを含む複数の言語をサポートしています。

対象ユーザー

Apache Sparkを使用して、大規模な分散クラスター全体で機械学習ワークフローを拡張する必要があるデータサイエンティストおよびMLエンジニア。

ハイライト

  • 分散型MLアルゴリズム: Spark上でのVowpal Wabbit、LightGBM、およびIsolation Forestの実装を含みます。
  • AIサービス統合: 大規模なビッグデータに対してMicrosoft Cognitive Servicesを活用します。
  • ONNX on Spark: 分散型かつハードウェア加速されたモデル推論を可能にします。
  • Microservice Orchestration: SparkをHTTPプロトコルと統合して分散型マイクロサービスオーケストレーションを行うために、HTTP on Sparkを使用します。
  • Responsible AI: 不透明なブラックボックスモデルを理解し、データセットのバイアスを測定するためのツール。
  • CybserML: サイバーセキュリティ専用の機械学習ツール。
  • Spark Serving: Sparkの計算をサブミリ秒のレイテンシでWebサービスとして提供する機能。

Sources