cube-studio: 多様な AI コンピュートとストレージリソースを管理するクラウドネイティブなワンストップ機械学習プラットフォーム

cube-studio: 多様な AI コンピュートとストレージリソースを管理するクラウドネイティブなワンストップ機械学習プラットフォーム

解決する課題

Cube Studio は、オープンソースのクラウドネイティブ機械学習プラットフォームで、ML ライフサイクル全体をワンストップで提供することを目的としています。大規模環境における AI 開発、トレーニング、デプロイのためのリソース、ユーザー、インフラストラクチャの管理の複雑さに対処します。

仕組み

クラウドネイティブプラットフォームとして動作し、さまざまなインフラ機能を統合します。コンピュートリソース(CPU、GPU、専用 AI チップ)、ストレージ(NFS、S3 など)、ネットワーク構成を管理します。プロジェクトグループ、ユーザー役割(RBAC)、複数の Kubernetes クラスタにまたがるリソース割り当てを一元管理するインターフェースを提供し、エッジクラスタやサーバーレスモード(Tencent Cloud、Alibaba Cloud)もサポートします。

対象ユーザー

多様なハードウェアとクラウド環境にまたがる AI ワークロードを管理するための、スケーラブルでエンタープライズ向けの ML プラットフォームが必要な組織やチーム向けに設計されています。

ハイライト

  • 幅広いハードウェアサポート: T4、V100、A100 などの GPU と、国内製 AI チップ(DCU、NPU、MLU)に加え、RDMA や vGPU もサポート。
  • エンタープライズ管理: 組み込みの RBAC、SSO(LDAP、OID)に加え、開発・トレーニング・推論向けの詳細なリソース計測と課金機能を提供。
  • 柔軟なインフラ: 複数の Kubernetes クラスタ、containerd、そして S3、MinIO、CephFS など多様な分散ストレージオプションをサポート。
  • クラウドネイティブ統合: 主要クラウドプロバイダー向けのサーバーレスクラスタモードを提供し、エッジクラスタでのトレーニングと推論もサポート。

Sources