kuberay:用于管理 Ray 集群、作业和服务生命周期的 Kubernetes Operator

kuberay:用于管理 Ray 集群、作业和服务生命周期的 Kubernetes Operator

它解决了什么问题

KubeRay 简化了在 Kubernetes 上部署和管理 Ray 应用,消除了手动配置分布式 AI 工作负载(如训练和推理)集群的复杂性。

工作原理

它作为 Kubernetes Operator 运行,提供三个主要的自定义资源定义(CRD)来管理不同类型的工作负载:

  • RayCluster:管理 Ray 集群的完整生命周期,包括创建、删除、自动伸缩和容错。
  • RayJob:自动创建集群,提交特定作业,并可在完成后自动删除集群。
  • RayService:将 RayCluster 与 Ray Serve 部署图结合,实现高可用性和零停机升级。

此外,它还提供 kubectl ray 插件以简化工作流、用于配置管理的 API 服务器,以及用于资源可视化的实验性仪表盘。

适用人群

该工具面向需要在 Kubernetes 上大规模运行分布式机器学习和 AI 应用(如 LLM 在线推理或批量训练)的开发者和平台工程师。

亮点

  • 自动化生命周期管理:自动处理集群的创建、伸缩和容错。
  • 生态系统集成:与 Prometheus、Grafana、Nginx 以及 Volcano、Kueue 等队列系统集成。
  • 工作负载专用资源:为长期服务(RayService)和一次性作业(RayJob)提供专用资源。
  • 可扩展性:被 Apple、Google、Spotify 等组织用于将 AI 基础设施扩展到数千节点。

Sources