FastDeploy: PD 분리와 광범위한 하드웨어 가속을 지원하는 프로덕션급 LLM 및 VLM 배포 툴킷

해결하는 문제

FastDeploy는 프로덕션 환경에서 대규모 언어 모델(LLMs) 및 시각 언어 모델(VLMs)을 배포할 때 발생하는 복잡성을 해결합니다. 리소스 활용도를 최적화하고, 처리량을 높이며, 다양한 하드웨어 플랫폼에서 서비스 수준 목표(SLO)를 충족할 수 있는 프로덕션급 툴킷을 제공합니다.

작동 방식

PaddlePaddle을 기반으로 구축된 FastDeploy는 다음과 같은 여러 고성능 추론 기술을 구현합니다:

PD Separation: 처리량을 최적화하기 위해 동적 역할 전환 및 컨텍스트 캐싱을 허용하는 부하 분산형 Prefill-Decode 분리 전략입니다.
KV Cache Management: 효율적인 캐시 전송을 위해 NVLink 또는 RDMA를 지능적으로 선택하는 경량 고성능 전송 라이브러리를 사용합니다.
Acceleration Techniques: 생성 속도를 높이기 위해 speculative decoding, Multi-Token Prediction (MTP), 그리고 chunked prefilling 기술을 채택합니다.
Quantization: 메모리 사용량을 줄이고 속도를 높이기 위해 W8A16, W8A8, W4A16, W4A8, W2A16, 및 FP8을 포함한 다양한 형식을 지원합니다.
API Compatibility: OpenAI와 호환되는 API를 제공하며, vLLM 인터페이스와 호환되어 통합이 용이합니다.

대상 사용자

NVIDIA GPU를 비롯하여 Kunlunxin XPU, Hygon DCU, Intel Gaudi와 같은 다양한 특수 가속기를 포함한 다양한 하드웨어에서 LLMs 및 VLMs(예: ERNIE, Qwen, DeepSeek)를 프로덕션에 배포해야 하는 개발자와 엔지니어를 위해 설계되었습니다.

주요 특징

광범위한 하드웨어 지원: NVIDIA, Kunlunxin, Hygon, Iluvatar, Enflame, Metax, 및 Intel Gaudi와 호환됩니다.
프로덕션급 기능: 부하 분산형 PD separation 및 글로벌 캐시 풀링을 포함합니다.
vLLM 호환성: vLLM 호환 인터페이스를 통해 단일 명령어로 배포가 가능합니다.
광범위한 모델 지원: Qwen3-VL, DeepSeek V3, 및 ERNIE 시리즈를 포함한 폭넓은 모델을 지원합니다.

FastDeploy: PD 분리와 광범위한 하드웨어 가속을 지원하는 프로덕션급 LLM 및 VLM 배포 툴킷

FastDeploy: PD 분리와 광범위한 하드웨어 가속을 지원하는 프로덕션급 LLM 및 VLM 배포 툴킷

해결하는 문제

작동 방식

대상 사용자

주요 특징

Sources