gpustack: 用於 AI 模型推理服務與實例配置的開源 GPU 集群管理器
gpustack: 用於 AI 模型推理服務與實例配置的開源 GPU 集群管理器
它解決了什麼問題
GPUStack 簡化了為 AI 模型推理服務與實例配置管理 GPU 集群的複雜過程。它消除了配置高性能推理引擎以及在不同環境(地端、Kubernetes 與雲端供應商)中編排資源所需的手動工作。
運作原理
GPUStack 作為中央管理器,負責編排各種可插拔的推理引擎——例如 vLLM、SGLang 與 TensorRT-LLM——並調度 GPU 資源以實現利用率最大化。它提供使用者介面,用於從目錄中部署模型、管理工作節點,並透過 OpenAI 相容的 API 提供模型服務。它也支援啟動可透過 SSH 存取的 GPU 實例,用於開發與微調。
目標對象
它專為需要跨多個 GPU 集群大規模提供模型即服務 (MaaS) 的開發團隊、IT 組織與服務供應商而設計。
重點功能
- 多集群管理:支援地端、Kubernetes 與雲端 GPU 資源。
- 可插拔引擎:自動配置 vLLM 與 SGLang 等引擎,並支援自定義引擎。
- 性能優化:包含針對延遲/吞吐量的預調優模式,並支援投機性解碼 (EAGLE3, MTP, N-grams) 以及擴展 KV 快取系統 (LMCache, HiCache)。
- 廣泛的加速器支援:相容於 NVIDIA、AMD、Ascend NPU、Hygon DCU 以及其他幾種專用的 AI 加速器。
- 企業級營運:具備內建身份驗證、存取控制、透過 Grafana/Prometheus 進行即時監控,以及自動故障恢復功能。
Sources
- undefinedgpustack/gpustack