dstack:跨多个云和本地集群的 GPU 供应与编排统一控制平面
dstack:跨多个云和本地集群的 GPU 供应与编排统一控制平面
它解决了什么
dstack 是一个用于 GPU 供应与编排的统一控制平面。它消除了在不同 GPU 云、Kubernetes 集群和本地服务器之间管理计算资源的复杂性,提供了一种一致的方式来处理开发、训练和推理。
工作原理
用户部署一个 dstack 服务器并使用 CLI 来管理其基础设施。系统通过配置“后端”来连接各种 GPU 云或集群。用户通过 YAML 配置文件定义舰队、开发环境和任务等基础设施需求。运行 dstack apply 时,系统会自动处理供应、作业排队、自动扩缩容、网络以及跨连接环境的卷管理。
适用人群
需要将工作负载从本地开发扩展到分布式训练和模型部署,并跨多种硬件加速器(NVIDIA、AMD、Google TPU 和 Tenstorrent)的 AI 开发者和机器学习工程师。
亮点
- 多云与混合支持:可在任何 GPU 云、Kubernetes 和本地集群上运行。
- 细粒度资源管理:支持舰队、开发环境、任务和服务,覆盖机器学习生命周期的不同阶段。
- uma own AI Agent 集成:提供“技能”,使 AI 代理(如 Claude 或 Cursor)能够通过 CLI 管理舰队并提交工作负载。
- 广泛的硬件兼容性:开箱即支持 NVIDIA、AMD、Google TPU 和 Tenstorrent 加速器。
Sources
- undefineddstackai/dstack