gpustack: 用於 AI 模型推理服務與實例配置的開源 GPU 集群管理器

它解決了什麼問題

GPUStack 簡化了為 AI 模型推理服務與實例配置管理 GPU 集群的複雜過程。它消除了配置高性能推理引擎以及在不同環境（地端、Kubernetes 與雲端供應商）中編排資源所需的手動工作。

運作原理

GPUStack 作為中央管理器，負責編排各種可插拔的推理引擎——例如 vLLM、SGLang 與 TensorRT-LLM——並調度 GPU 資源以實現利用率最大化。它提供使用者介面，用於從目錄中部署模型、管理工作節點，並透過 OpenAI 相容的 API 提供模型服務。它也支援啟動可透過 SSH 存取的 GPU 實例，用於開發與微調。

目標對象

它專為需要跨多個 GPU 集群大規模提供模型即服務 (MaaS) 的開發團隊、IT 組織與服務供應商而設計。

重點功能

多集群管理：支援地端、Kubernetes 與雲端 GPU 資源。
可插拔引擎：自動配置 vLLM 與 SGLang 等引擎，並支援自定義引擎。
性能優化：包含針對延遲/吞吐量的預調優模式，並支援投機性解碼 (EAGLE3, MTP, N-grams) 以及擴展 KV 快取系統 (LMCache, HiCache)。
廣泛的加速器支援：相容於 NVIDIA、AMD、Ascend NPU、Hygon DCU 以及其他幾種專用的 AI 加速器。
企業級營運：具備內建身份驗證、存取控制、透過 Grafana/Prometheus 進行即時監控，以及自動故障恢復功能。

gpustack: 用於 AI 模型推理服務與實例配置的開源 GPU 集群管理器

gpustack: 用於 AI 模型推理服務與實例配置的開源 GPU 集群管理器

它解決了什麼問題

運作原理

目標對象

重點功能

Sources