dstack: 一個用於跨多雲與地端集群進行 GPU 配置與編排的統一控制平面
dstack: 一個用於跨多雲與地端集群進行 GPU 配置與編排的統一控制平面
它解決了什麼問題
dstack 是一個用於 GPU 配置與編排的統一控制平面。它消除了在不同 GPU 雲端、Kubernetes 集群以及地端伺服器之間管理運算資源的複雜性,為開發、訓練與推論提供了一致的處理方式。
運作原理
使用者透過設定 dstack 伺服器與 CLI 來管理其基礎設施。系統透過配置「後端 (backends)」來連接到各種 GPU 雲端或集群。使用者透過 YAML 設定檔來定義其基礎設施需求,包括 fleet、開發環境與任務。藉由執行 dstack apply,系統會自動處理連接環境中的配置、作業排隊、自動擴展、網路與磁碟卷管理。
對象是誰
需要將工作負載從本地開發擴展到分散式訓練,並在多種硬體加速器(NVIDIA、AMD、Google TPU 與 Tenstorrent)上進行模型部署的 AI 開發者與 ML 工程師。
重點特色
- 多雲與混合支援:支援任何 GPU 雲端、Kubernetes 與地端集群。
- 詳細的資源管理:支援用於 ML 生命週期不同階段的 fleets、開發環境、任務與服務。
- 整合自有的 AI Agent:提供「技能 (skills)」讓 AI agent(例如 Claude 或 Cursor)能透過 CLI 管理 fleets 並提交工作負載。
- 廣泛的硬體相容性:開箱即用地支援 NVIDIA、AMD、Google TPU 與 Tenstorrent 加速器。
Sources
- undefineddstackai/dstack