FastDeploy: 一个具备 PD 分离和广泛硬件加速能力的生产级 LLM 和 VLM 部署工具包

FastDeploy: 一个具备 PD 分离和广泛硬件加速能力的生产级 LLM 和 VLM 部署工具包

它解决了什么问题

FastDeploy 解决了在生产环境中部署大语言模型 (LLMs) 和视觉语言模型 (VLMs) 的复杂性。它提供了一个生产级的工具包，旨在优化资源利用率、提高吞吐量，并确保在各种硬件平台上都能满足服务水平目标 (SLO)。

工作原理

基于 PaddlePaddle 构建，FastDeploy 实现了多种高性能推理技术：

PD 分离：一种负载均衡的 Prefill-Decode 分离策略，允许动态角色切换和上下文缓存以优化吞吐量。
KV Cache 管理：使用轻量级高性能传输库，并智能选择 NVLink 或 RDMA 进行高效缓存传输。
加速技术：采用投机采样 (speculative decoding)、多 Token 预测 (MTP) 和分块预填充 (chunked prefilling) 来加速生成。
量化：支持多种格式，包括 W8A16、W8A8、W4A16、W4A8、W2A16 和 FP8，以减少内存占用并提高速度。
API 兼容性：提供与 OpenAI 兼容的 API，并兼容 vLLM 接口，以便于集成。

适用人群

它专为需要将 LLMs 和 VLMs（如 ERNIE、Qwen 和 DeepSeek）部署到包括 NVIDIA GPU 以及各种专用加速器（如 Kunlunxin XPU、Hygon DCU 和 Intel Gaudi）在内的多样化硬件上的开发人员和工程师设计。

亮点

广泛的硬件支持：兼容 NVIDIA、Kunlunxin、Hygon、Iluvatar、Enflame、Metax 和 Intel Gaudi。
生产级特性：包括负载均衡的 PD 分离和全局缓存池化。
vLLM 兼容性：允许通过与 vLLM 兼容的接口进行单命令部署。
广泛的模型支持：支持包括 Qwen3-VL、DeepSeek V3 和 ERNIE 系列在内的广泛模型。

Sources

undefinedPaddlePaddle/FastDeploy