dstack: 一個用於跨多雲與地端集群進行 GPU 配置與編排的統一控制平面

dstack: 一個用於跨多雲與地端集群進行 GPU 配置與編排的統一控制平面

它解決了什麼問題

dstack 是一個用於 GPU 配置與編排的統一控制平面。它消除了在不同 GPU 雲端、Kubernetes 集群以及地端伺服器之間管理運算資源的複雜性,為開發、訓練與推論提供了一致的處理方式。

運作原理

使用者透過設定 dstack 伺服器與 CLI 來管理其基礎設施。系統透過配置「後端 (backends)」來連接到各種 GPU 雲端或集群。使用者透過 YAML 設定檔來定義其基礎設施需求,包括 fleet、開發環境與任務。藉由執行 dstack apply,系統會自動處理連接環境中的配置、作業排隊、自動擴展、網路與磁碟卷管理。

對象是誰

需要將工作負載從本地開發擴展到分散式訓練,並在多種硬體加速器(NVIDIA、AMD、Google TPU 與 Tenstorrent)上進行模型部署的 AI 開發者與 ML 工程師。

重點特色

  • 多雲與混合支援:支援任何 GPU 雲端、Kubernetes 與地端集群。
  • 詳細的資源管理:支援用於 ML 生命週期不同階段的 fleets、開發環境、任務與服務。
  • 整合自有的 AI Agent:提供「技能 (skills)」讓 AI agent(例如 Claude 或 Cursor)能透過 CLI 管理 fleets 並提交工作負載。
  • 廣泛的硬體相容性:開箱即用地支援 NVIDIA、AMD、Google TPU 與 Tenstorrent 加速器。

Sources