SynapseML:在 Apache Spark 上構建分散式機器學習管道的可擴展機器學習庫

SynapseML:在 Apache Spark 上構建分散式機器學習管道的可擴展機器學習庫

它解決了什麼問題

SynapseML 簡化了大規模可擴展機器學習管道的建立。它讓使用者能夠為文字分析、電腦視覺與異常偵測等任務構建智慧系統,這些系統可以從單一節點擴展到彈性可調整的叢集,而不會浪費資源。

它如何運作

SynapseML 基於 Apache Spark 分散式計算框架構建,提供可組合且分散式的 API,與 SparkML/MLLib 共享相同的 API。這使得它能無縫嵌入現有的 Spark 工作流程。它抽象化了各種資料庫、檔案系統與雲端資料儲存,並支援多種語言,包括 Python、R、Scala、Java 與 .NET。

目標對象

需要使用 Apache Spark 在大規模分散式叢集上擴展機器學習工作流程的資料科學家與 ML 工程師。

重點特色

  • 分散式機器學習演算法:在 Spark 上實作 Vowpal Wabbit、LightGBM 與 Isolation Forest。
  • AI 服務整合:利用 Microsoft Cognitive Services 於大數據規模下運作。
  • ONNX on Spark:支援分散式與硬體加速的模型推論。
  • 微服務編排:使用 Spark 上的 HTTP,將 Spark 與 HTTP 協定整合,以實現分散式微服務編排。
  • 負責任的 AI:提供工具以了解不透明模型並衡量資料集偏差。
  • CybserML:專為網路安全設計的機器學習工具。
  • Spark Serving:能將 Spark 計算以子毫秒延遲提供為 Web 服務。

摘要: 一個建構於 Apache Spark 之上的開源庫,提供可擴展、分散式的機器學習 API,適用於文字分析、視覺與異常偵測等任務。

標題: SynapseML:在 Apache Spark 上構建分散式機器學習管道的可擴展機器學習庫

Sources