FastDeploy: 一款具備 PD 分離與廣泛硬體加速功能的生產級 LLM 與 VLM 部署工具包

FastDeploy: 一款具備 PD 分離與廣泛硬體加速功能的生產級 LLM 與 VLM 部署工具包

它解決了什麼問題

FastDeploy 解決了在生產環境中部署大型語言模型 (LLMs) 與視覺語言模型 (VLMs) 的複雜性。它提供了一個生產級的工具包，可優化資源利用率、提高吞吐量，並確保在各種硬體平台上都能達到服務水準目標 (SLO)。

運作原理

FastDeploy 基於 PaddlePaddle 構建，實現了多種高效能推理技術：

PD 分離：一種負載平衡的 Prefill-Decode 分離策略，允許動態角色切換與上下文快取 (context caching)，以優化吞吐量。
KV Cache 管理：使用輕量級的高效能傳輸函式庫，並智慧選擇 NVLink 或 RDMA 以進行高效的快取傳輸。
加速技術：採用投機解碼 (speculative decoding)、多標記預測 (Multi-Token Prediction, MTP) 以及分塊預填充 (chunked prefilling) 來加速生成。
量化：支援多種格式，包括 W8A16、W8A8、W4A16、W4A8、W2A16 以及 FP8，以減少記憶體佔用並提高速度。
API 相容性：提供與 OpenAI 相容的 API，並與 vLLM 介面相容，以便於整合。

對象是誰

它專為需要將 LLMs 與 VLMs（例如 ERNIE、Qwen 與 DeepSeek）部署到各種硬體（包括 NVIDIA GPUs 以及各種專用加速器，如 Kunlunxin XPU、Hygon DCU 與 Intel Gaudi）的開發者與工程師而設計。

重點特色

廣泛的硬體支援：相容於 NVIDIA、Kunlunxin、Hygon、Iluvatar、Enflame、Metax 與 Intel Gaudi。
生產級功能：包含負載平衡的 PD 分離與全域快取池 (global cache pooling)。
vLLM 相容性：允許透過與 vLLM 相容的介面進行單指令部署。
廣泛的模型支援：支援多種模型，包括 Qwen3-VL、DeepSeek V3 與 ERNIE 系列。

Sources

undefinedPaddlePaddle/FastDeploy