kuberay：用于管理 Ray 集群、作业和服务生命周期的 Kubernetes Operator

kuberay：用于管理 Ray 集群、作业和服务生命周期的 Kubernetes Operator

它解决了什么问题

KubeRay 简化了在 Kubernetes 上部署和管理 Ray 应用，消除了手动配置分布式 AI 工作负载（如训练和推理）集群的复杂性。

工作原理

它作为 Kubernetes Operator 运行，提供三个主要的自定义资源定义（CRD）来管理不同类型的工作负载：

RayCluster：管理 Ray 集群的完整生命周期，包括创建、删除、自动伸缩和容错。
RayJob：自动创建集群，提交特定作业，并可在完成后自动删除集群。
RayService：将 RayCluster 与 Ray Serve 部署图结合，实现高可用性和零停机升级。

此外，它还提供 kubectl ray 插件以简化工作流、用于配置管理的 API 服务器，以及用于资源可视化的实验性仪表盘。

适用人群

该工具面向需要在 Kubernetes 上大规模运行分布式机器学习和 AI 应用（如 LLM 在线推理或批量训练）的开发者和平台工程师。

亮点

自动化生命周期管理：自动处理集群的创建、伸缩和容错。
生态系统集成：与 Prometheus、Grafana、Nginx 以及 Volcano、Kueue 等队列系统集成。
工作负载专用资源：为长期服务（RayService）和一次性作业（RayJob）提供专用资源。
可扩展性：被 Apple、Google、Spotify 等组织用于将 AI 基础设施扩展到数千节点。

Sources

undefinedray-project/kuberay