SynapseML: 一个用于在 Apache Spark 上构建分布式 ML 流水线的可扩展机器学习库
SynapseML: 一个用于在 Apache Spark 上构建分布式 ML 流水线的可扩展机器学习库
它解决了什么问题
SynapseML 简化了大规模可扩展机器学习流水线的创建。它允许用户为文本分析、计算机视觉和异常检测等任务构建智能系统,这些系统可以从单个节点弹性扩展到可调整大小的集群,而不会浪费资源。
它是如何工作的
SynapseML 基于 Apache Spark 分布式计算框架构建,提供与 SparkML/MLLib 共享相同 API 的可组合且分布式的 API。这使其能够无缝嵌入到现有的 Spark 工作流中。它抽象了各种数据库、文件系统和云数据存储,并支持多种语言,包括 Python、R、Scala、Java 和 .NET。
它是面向谁的
需要使用 Apache Spark 在大规模分布式集群上扩展其机器学习工作流的数据科学家和 ML 工程师。
亮点
- 分布式 ML 算法:包括在 Spark 上的 Vowpal Wabbit、LightGBM 和 Isolation Forest 的实现。
- AI 服务集成:利用 Microsoft Cognitive Services 进行大规模大数据处理。
- ONNX on Spark:实现分布式和硬件加速的模型推理。
- 微服务编排:使用 HTTP on Spark 将 Spark 与 HTTP 协议集成,用于分布式微服务编排。
- 负责任的 AI:用于理解黑盒模型并衡量数据集偏差的工具。
- CybserML:用于网络安全的专用机器学习工具。
- Spark Serving:能够以亚毫秒级延迟将 Spark 计算作为 Web 服务提供。
Sources
- undefinedmicrosoft/SynapseML