kuberay:用于管理 Ray 集群、作业和服务生命周期的 Kubernetes Operator
kuberay:用于管理 Ray 集群、作业和服务生命周期的 Kubernetes Operator
它解决了什么问题
KubeRay 简化了在 Kubernetes 上部署和管理 Ray 应用,消除了手动配置分布式 AI 工作负载(如训练和推理)集群的复杂性。
工作原理
它作为 Kubernetes Operator 运行,提供三个主要的自定义资源定义(CRD)来管理不同类型的工作负载:
- RayCluster:管理 Ray 集群的完整生命周期,包括创建、删除、自动伸缩和容错。
- RayJob:自动创建集群,提交特定作业,并可在完成后自动删除集群。
- RayService:将 RayCluster 与 Ray Serve 部署图结合,实现高可用性和零停机升级。
此外,它还提供 kubectl ray 插件以简化工作流、用于配置管理的 API 服务器,以及用于资源可视化的实验性仪表盘。
适用人群
该工具面向需要在 Kubernetes 上大规模运行分布式机器学习和 AI 应用(如 LLM 在线推理或批量训练)的开发者和平台工程师。
亮点
- 自动化生命周期管理:自动处理集群的创建、伸缩和容错。
- 生态系统集成:与 Prometheus、Grafana、Nginx 以及 Volcano、Kueue 等队列系统集成。
- 工作负载专用资源:为长期服务(RayService)和一次性作业(RayJob)提供专用资源。
- 可扩展性:被 Apple、Google、Spotify 等组织用于将 AI 基础设施扩展到数千节点。
Sources
- undefinedray-project/kuberay