gpustack: AI 모델 서빙 및 인스턴스 프로비저닝을 위한 오픈소스 GPU 클러스터 관리자

gpustack: AI 모델 서빙 및 인스턴스 프로비저닝을 위한 오픈소스 GPU 클러스터 관리자

해결하는 문제

GPUStack은 AI 모델 서빙 및 인스턴스 프로비저닝을 위한 GPU 클러스터 관리의 복잡한 프로세스를 단순화합니다. 고성능 추론 엔진을 구성하고 다양한 환경(on-premises, Kubernetes, 클라우드 제공업체)에서 리소스를 오케스트레이션하는 데 필요한 수동 작업을 제거합니다.

작동 방식

GPUStack은 vLLM, SGLang, TensorRT-LLM과 같은 다양한 플러그형 추론 엔진을 오케스트레이션하고 GPU 리소스를 스케줄링하여 활용도를 극대화하는 중앙 관리자 역할을 합니다. 카탈로그에서 모델을 배포하고, 워커 노드를 관리하며, OpenAI-compatible API를 통해 모델을 노출하는 사용자 인터페이스를 제공합니다. 또한 개발 및 미세 조정을 위해 SSH 접속이 가능한 GPU 인스턴스를 실행하는 것도 지원합니다.

대상 사용자

여러 GPU 클러스터에 걸쳐 대규모로 Model-as-a-Service (MaaS)를 제공해야 하는 개발 팀, IT 조직 및 서비스 제공업체용으로 설계되었습니다.

주요 특징

  • Multi-Cluster Management: on-premises, Kubernetes 및 클라우드 GPU 리소스를 지원합니다.
  • Pluggable Engines: vLLM 및 SGLang과 같은 엔진을 자동으로 구성하며, 사용자 정의 엔진도 지원합니다.
  • Performance Optimization: 지연 시간/처리량(latency/throughput)을 위한 사전 튜닝된 모드를 포함하며, speculative decoding (EAGLE3, MTP, N-grams) 및 확장된 KV cache 시스템 (LMCache, HiCache)을 지원합니다.
  • Broad Accelerator Support: NVIDIA, AMD, Ascend NPU, Hygon DCU 및 기타 여러 특수 AI 가속기를 지원합니다.
  • Enterprise Operations: 내장된 인증, 액세스 제어, Grafana/Prometheus를 통한 실시간 모니터링 및 자동 장애 복구 기능을 제공합니다.

Sources