cube-studio:一个云原生的一站式机器学习平台,用于管理多样化的 AI 计算和存储资源

cube-studio:一个云原生的一站式机器学习平台,用于管理多样化的 AI 计算和存储资源

它解决了什么

Cube Studio 是一个开源的、云原生的机器学习平台,旨在为整个 ML 生命周期提供一站式服务。它解决了在大规模环境中管理 AI 开发、训练和部署所需的资源、用户和基础设施的复杂性。

工作原理

它作为云原生平台运行,整合了各种基础设施能力。平台管理计算资源(CPU、GPU 以及专用 AI 芯片)、存储(NFS、S3 等)和网络配置。它提供集中式管理界面,用于项目组、用户角色(RBAC)以及跨多个 Kubernetes 集群的资源分配,支持边缘集群和无服务器模式(腾讯云和阿里云)。

适用对象

该平台面向需要可扩展、企业级 ML 平台的组织和团队,帮助他们在多样化的硬件和云环境中管理 AI 工作负载。

亮点

  • 广泛的硬件支持:支持多种 GPU(T4、V100、A100)以及国产 AI 芯片(DCU、NPU、MLU),并兼容 RDMA 与 vGPU。
  • 企业级管理:内置 RBAC、单点登录(LDAP、OID),以及针对开发、训练和推理的细粒度资源计量和计费。
  • 灵活的基础设施:支持多 Kubernetes 集群、containerd,以及多种分布式存储方案(S3、MinIO、CephFS 等)。
  • 云原生集成:提供主要云厂商的无服务器集群模式,并支持边缘集群的训练与推理部署。

Sources