gpustack: 用于 AI 模型推理服务和实例配置的开源 GPU 集群管理器

gpustack: 用于 AI 模型推理服务和实例配置的开源 GPU 集群管理器

它解决了什么问题

GPUStack 简化了为 AI 模型推理服务和实例配置管理 GPU 集群的复杂过程。它消除了配置高性能推理引擎以及在不同环境(本地、Kubernetes 和云提供商)中编排资源的繁琐手动工作。

工作原理

GPUStack 作为一个中央管理器,编排各种可插拔的推理引擎——例如 vLLM、SGLang 和 TensorRT-LLM——并调度 GPU 资源以实现利用率最大化。它提供了一个用户界面,用于从目录中部署模型、管理工作节点,并通过 OpenAI 兼容的 API 暴露模型。它还支持启动可进行 SSH 访问的 GPU 实例,用于开发和微调。

适用对象

它专为需要跨多个 GPU 集群大规模交付模型即服务 (MaaS) 的开发团队、IT 组织和服务提供商而设计。

亮点

  • 多集群管理:支持本地、Kubernetes 和云端 GPU 资源。
  • 可插拔引擎:自动配置 vLLM 和 SGLang 等引擎,并支持自定义引擎。
  • 性能优化:包括针对延迟/吞吐量的预调优模式,并支持投机采样 (EAGLE3, MTP, N-grams) 以及扩展 KV 缓存系统 (LMCache, HiCache)。
  • 广泛的加速器支持:兼容 NVIDIA、AMD、Ascend NPU、Hygon DCU 以及其他几种专门的 AI 加速器。
  • 企业级运营:具备内置身份验证、访问控制、通过 Grafana/Prometheus 进行的实时监控,以及自动故障恢复功能。

Sources