dstack: 一個用於跨多雲與地端集群進行 GPU 配置與編排的統一控制平面

它解決了什麼問題

dstack 是一個用於 GPU 配置與編排的統一控制平面。它消除了在不同 GPU 雲端、Kubernetes 集群以及地端伺服器之間管理運算資源的複雜性，為開發、訓練與推論提供了一致的處理方式。

運作原理

使用者透過設定 dstack 伺服器與 CLI 來管理其基礎設施。系統透過配置「後端 (backends)」來連接到各種 GPU 雲端或集群。使用者透過 YAML 設定檔來定義其基礎設施需求，包括 fleet、開發環境與任務。藉由執行 dstack apply，系統會自動處理連接環境中的配置、作業排隊、自動擴展、網路與磁碟卷管理。

對象是誰

需要將工作負載從本地開發擴展到分散式訓練，並在多種硬體加速器（NVIDIA、AMD、Google TPU 與 Tenstorrent）上進行模型部署的 AI 開發者與 ML 工程師。

重點特色

多雲與混合支援：支援任何 GPU 雲端、Kubernetes 與地端集群。
詳細的資源管理：支援用於 ML 生命週期不同階段的 fleets、開發環境、任務與服務。
整合自有的 AI Agent：提供「技能 (skills)」讓 AI agent（例如 Claude 或 Cursor）能透過 CLI 管理 fleets 並提交工作負載。
廣泛的硬體相容性：開箱即用地支援 NVIDIA、AMD、Google TPU 與 Tenstorrent 加速器。

dstack: 一個用於跨多雲與地端集群進行 GPU 配置與編排的統一控制平面

dstack: 一個用於跨多雲與地端集群進行 GPU 配置與編排的統一控制平面

它解決了什麼問題

運作原理

對象是誰

重點特色

Sources