gpustack: 用于 AI 模型推理服务和实例配置的开源 GPU 集群管理器

它解决了什么问题

GPUStack 简化了为 AI 模型推理服务和实例配置管理 GPU 集群的复杂过程。它消除了配置高性能推理引擎以及在不同环境（本地、Kubernetes 和云提供商）中编排资源的繁琐手动工作。

工作原理

GPUStack 作为一个中央管理器，编排各种可插拔的推理引擎——例如 vLLM、SGLang 和 TensorRT-LLM——并调度 GPU 资源以实现利用率最大化。它提供了一个用户界面，用于从目录中部署模型、管理工作节点，并通过 OpenAI 兼容的 API 暴露模型。它还支持启动可进行 SSH 访问的 GPU 实例，用于开发和微调。

适用对象

它专为需要跨多个 GPU 集群大规模交付模型即服务 (MaaS) 的开发团队、IT 组织和服务提供商而设计。

亮点

多集群管理：支持本地、Kubernetes 和云端 GPU 资源。
可插拔引擎：自动配置 vLLM 和 SGLang 等引擎，并支持自定义引擎。
性能优化：包括针对延迟/吞吐量的预调优模式，并支持投机采样 (EAGLE3, MTP, N-grams) 以及扩展 KV 缓存系统 (LMCache, HiCache)。
广泛的加速器支持：兼容 NVIDIA、AMD、Ascend NPU、Hygon DCU 以及其他几种专门的 AI 加速器。
企业级运营：具备内置身份验证、访问控制、通过 Grafana/Prometheus 进行的实时监控，以及自动故障恢复功能。

gpustack: 用于 AI 模型推理服务和实例配置的开源 GPU 集群管理器

gpustack: 用于 AI 模型推理服务和实例配置的开源 GPU 集群管理器

它解决了什么问题

工作原理

适用对象

亮点

Sources