dstack：跨多个云和本地集群的 GPU 供应与编排统一控制平面

它解决了什么

dstack 是一个用于 GPU 供应与编排的统一控制平面。它消除了在不同 GPU 云、Kubernetes 集群和本地服务器之间管理计算资源的复杂性，提供了一种一致的方式来处理开发、训练和推理。

工作原理

用户部署一个 dstack 服务器并使用 CLI 来管理其基础设施。系统通过配置“后端”来连接各种 GPU 云或集群。用户通过 YAML 配置文件定义舰队、开发环境和任务等基础设施需求。运行 dstack apply 时，系统会自动处理供应、作业排队、自动扩缩容、网络以及跨连接环境的卷管理。

适用人群

需要将工作负载从本地开发扩展到分布式训练和模型部署，并跨多种硬件加速器（NVIDIA、AMD、Google TPU 和 Tenstorrent）的 AI 开发者和机器学习工程师。

亮点

多云与混合支持：可在任何 GPU 云、Kubernetes 和本地集群上运行。
细粒度资源管理：支持舰队、开发环境、任务和服务，覆盖机器学习生命周期的不同阶段。
uma own AI Agent 集成：提供“技能”，使 AI 代理（如 Claude 或 Cursor）能够通过 CLI 管理舰队并提交工作负载。
广泛的硬件兼容性：开箱即支持 NVIDIA、AMD、Google TPU 和 Tenstorrent 加速器。

dstack：跨多个云和本地集群的 GPU 供应与编排统一控制平面

dstack：跨多个云和本地集群的 GPU 供应与编排统一控制平面

它解决了什么

工作原理

适用人群

亮点

Sources