cube-studio:一站式雲原生機器學習平台,管理多樣化 AI 計算與儲存資源

cube-studio:一站式雲原生機器學習平台,管理多樣化 AI 計算與儲存資源

它解決了什麼問題

Cube Studio 是一個開源、雲原生的機器學習平台,旨在提供整個 ML 生命周期的一站式服務。它針對在大規模環境中進行 AI 開發、訓練與部署時,資源、使用者與基礎設施管理的複雜性提供解決方案。

工作原理

它作為雲原生平台運行,整合各種基礎設施能力。平台管理計算資源(CPU、GPU 與專用 AI 晶片)、儲存(NFS、S3 等)以及網路配置。它提供集中式管理介面,供專案組、使用者角色(RBAC)以及跨多個 Kubernetes 叢集的資源分配使用,並支援邊緣叢集與無伺服器模式(Tencent Cloud 與 Alibaba Cloud)。

目標對象

此平台適用於需要可擴展、企業級 ML 平台,以在多樣化硬體與雲端環境中管理 AI 工作負載的組織與團隊。

重點特色

  • 廣泛的硬體支援:支援多種 GPU(T4、V100、A100)與國產 AI 晶片(DCU、NPU、MLU),同時支援 RDMA 與 vGPU。
  • 企業級管理:內建 RBAC、SSO(LDAP、OID),以及針對開發、訓練與推論的詳細資源計量與計費功能。
  • 彈性基礎設施:支援多個 Kubernetes 叢集、containerd,以及多種分散式儲存選項(S3、MinIO、CephFS 等)。
  • 雲原生整合:提供主要雲服務商的無伺服器叢集模式,並支援邊緣叢集的訓練與推論部署。

Sources