gpustack: AIモデルサービングとインスタンスプロビジョニングのためのオープンソースGPUクラスターマネージャー
gpustack: AIモデルサービングとインスタンスプロビジョニングのためのオープンソースGPUクラスターマネージャー
何を解決するか
GPUStackは、AIモデルサービングとインスタンスプロビジョニングのためのGPUクラスター管理という複雑なプロセスを簡素化します。高性能な推論エンジンを構成し、多様な環境(オンプレミス、Kubernetes、クラウドプロバイダー)にわたってリソースをオーケストレーションするために必要な手動作業を排除します。
仕組み
GPUStackは、vLLM、SGLang、TensorRT-LLMなどの様々なプラグイン可能な推論エンジンをオーケストレーションし、GPUリソースをスケジューリングして利用率を最大化する中央マネージャーとして機能します。カタログからモデルをデプロイし、ワーカーノードを管理し、OpenAI互換のAPIを介してモデルを公開するためのユーザーインターフェースを提供します。また、開発やファインチューニングのために、SSHアクセス可能なGPUインスタンスの起動もサポートしています。
対象ユーザー
複数のGPUクラスターにわたって、大規模なModel-as-a-Service (MaaS) を提供する必要がある開発チーム、IT組織、およびサービスプロバイダー向けに設計されています。
ハイライト
- マルチクラスター管理: オンプレミス、Kubernetes、およびクラウドのGPUリソースをサポートします。
- プラグイン可能なエンジン: vLLMやSGLangなどのエンジンを自動的に構成し、カスタムエンジンもサポートします。
- パフォーマンス最適化: レイテンシ/スループット向けの事前調整済みモード、投機的デコーディング(EAGLE3、MTP、N-grams)および拡張KVキャッシュシステム(LMCache、HiCache)のサポートを含みます。
- 幅広いアクセラレータのサポート: NVIDIA、AMD、Ascend NPU、Hygon DCU、およびその他のいくつかの専門的なAIアクセラレータと互換性があります。
- エンタープライズ運用: 組み込みの認証、アクセス制御、Grafana/Prometheusを介したリアルタイムモニタリング、および自動障害復旧機能を備えています。
Sources
- undefinedgpustack/gpustack