gpustack: AIモデルサービングとインスタンスプロビジョニングのためのオープンソースGPUクラスターマネージャー

何を解決するか

GPUStackは、AIモデルサービングとインスタンスプロビジョニングのためのGPUクラスター管理という複雑なプロセスを簡素化します。高性能な推論エンジンを構成し、多様な環境（オンプレミス、Kubernetes、クラウドプロバイダー）にわたってリソースをオーケストレーションするために必要な手動作業を排除します。

仕組み

GPUStackは、vLLM、SGLang、TensorRT-LLMなどの様々なプラグイン可能な推論エンジンをオーケストレーションし、GPUリソースをスケジューリングして利用率を最大化する中央マネージャーとして機能します。カタログからモデルをデプロイし、ワーカーノードを管理し、OpenAI互換のAPIを介してモデルを公開するためのユーザーインターフェースを提供します。また、開発やファインチューニングのために、SSHアクセス可能なGPUインスタンスの起動もサポートしています。

対象ユーザー

複数のGPUクラスターにわたって、大規模なModel-as-a-Service (MaaS) を提供する必要がある開発チーム、IT組織、およびサービスプロバイダー向けに設計されています。

ハイライト

マルチクラスター管理: オンプレミス、Kubernetes、およびクラウドのGPUリソースをサポートします。
プラグイン可能なエンジン: vLLMやSGLangなどのエンジンを自動的に構成し、カスタムエンジンもサポートします。
パフォーマンス最適化: レイテンシ/スループット向けの事前調整済みモード、投機的デコーディング（EAGLE3、MTP、N-grams）および拡張KVキャッシュシステム（LMCache、HiCache）のサポートを含みます。
幅広いアクセラレータのサポート: NVIDIA、AMD、Ascend NPU、Hygon DCU、およびその他のいくつかの専門的なAIアクセラレータと互換性があります。
エンタープライズ運用: 組み込みの認証、アクセス制御、Grafana/Prometheusを介したリアルタイムモニタリング、および自動障害復旧機能を備えています。

gpustack: AIモデルサービングとインスタンスプロビジョニングのためのオープンソースGPUクラスターマネージャー

gpustack: AIモデルサービングとインスタンスプロビジョニングのためのオープンソースGPUクラスターマネージャー

何を解決するか

仕組み

対象ユーザー

ハイライト

Sources