FastDeploy: 一个具备 PD 分离和广泛硬件加速能力的生产级 LLM 和 VLM 部署工具包
FastDeploy: 一个具备 PD 分离和广泛硬件加速能力的生产级 LLM 和 VLM 部署工具包
它解决了什么问题
FastDeploy 解决了在生产环境中部署大语言模型 (LLMs) 和视觉语言模型 (VLMs) 的复杂性。它提供了一个生产级的工具包,旨在优化资源利用率、提高吞吐量,并确保在各种硬件平台上都能满足服务水平目标 (SLO)。
工作原理
基于 PaddlePaddle 构建,FastDeploy 实现了多种高性能推理技术:
- PD 分离:一种负载均衡的 Prefill-Decode 分离策略,允许动态角色切换和上下文缓存以优化吞吐量。
- KV Cache 管理:使用轻量级高性能传输库,并智能选择 NVLink 或 RDMA 进行高效缓存传输。
- 加速技术:采用投机采样 (speculative decoding)、多 Token 预测 (MTP) 和分块预填充 (chunked prefilling) 来加速生成。
- 量化:支持多种格式,包括 W8A16、W8A8、W4A16、W4A8、W2A16 和 FP8,以减少内存占用并提高速度。
- API 兼容性:提供与 OpenAI 兼容的 API,并兼容 vLLM 接口,以便于集成。
适用人群
它专为需要将 LLMs 和 VLMs(如 ERNIE、Qwen 和 DeepSeek)部署到包括 NVIDIA GPU 以及各种专用加速器(如 Kunlunxin XPU、Hygon DCU 和 Intel Gaudi)在内的多样化硬件上的开发人员和工程师设计。
亮点
- 广泛的硬件支持:兼容 NVIDIA、Kunlunxin、Hygon、Iluvatar、Enflame、Metax 和 Intel Gaudi。
- 生产级特性:包括负载均衡的 PD 分离和全局缓存池化。
- vLLM 兼容性:允许通过与 vLLM 兼容的接口进行单命令部署。
- 广泛的模型支持:支持包括 Qwen3-VL、DeepSeek V3 和 ERNIE 系列在内的广泛模型。
Sources
- undefinedPaddlePaddle/FastDeploy