SynapseML: Apache Spark에서 분산 ML 파이프라인을 구축하기 위한 확장 가능한 머신러닝 라이브러리

SynapseML: Apache Spark에서 분산 ML 파이프라인을 구축하기 위한 확장 가능한 머신러닝 라이브러리

해결하는 문제

SynapseML은 대규모 확장 가능한 머신러닝 파이프라인의 생성을 단순화합니다. 단일 노드부터 탄력적으로 확장 가능한 클러스터까지 자원을 낭비하지 않고 텍스트 분석, 컴퓨터 비전, 이상 탐지와 같은 작업을 위한 지능형 시스템을 구축할 수 있게 해줍니다.

작동 방식

Apache Spark 분산 컴퓨팅 프레임워크 위에 구축된 SynapseML은 SparkML/MLLib과 동일한 API를 공유하는 조합 가능하고 분산된 API를 제공합니다. 이를 통해 기존 Spark 워크플로에 원활히 통합될 수 있습니다. 다양한 데이터베이스, 파일 시스템, 클라우드 데이터 스토어를 추상화하며 Python, R, Scala, Java, .NET 등 여러 언어를 지원합니다.

대상 사용자

Apache Spark를 사용해 대규모 분산 클러스터 전반에 머신러닝 워크플로를 확장해야 하는 데이터 과학자와 ML 엔지니어.

주요 특징

  • Distributed ML Algorithms: Spark에서 Vowpal Wabbit, LightGBM, Isolation Forest 구현을 포함합니다.
  • AI Service Integration: 대규모 데이터에 Microsoft Cognitive Services를 활용합니다.
  • ONNX on Spark: 분산 및 하드웨어 가속 모델 추론을 가능하게 합니다.
  • Microservice Orchestration: Spark와 HTTP 프로토콜을 통합해 분산 마이크로서비스 오케스트레이션을 구현합니다.
  • Responsible AI: 불투명 모델을 이해하고 데이터셋 편향을 측정하는 도구를 제공합니다.
  • CybserML: 사이버 보안을 위한 전용 머신러닝 도구 모음.
  • Spark Serving: 서브밀리초 지연 시간으로 Spark 계산을 웹 서비스로 제공할 수 있습니다.

요약

Apache Spark 위에 구축된 오픈소스 라이브러리로, 텍스트 분석, 비전, 이상 탐지와 같은 머신러닝 작업을 위한 확장 가능하고 분산된 API를 제공합니다.

제목

SynapseML: Apache Spark에서 분산 ML 파이프라인을 구축하기 위한 확장 가능한 머신러닝 라이브러리

Sources