FastDeploy: 一款具備 PD 分離與廣泛硬體加速功能的生產級 LLM 與 VLM 部署工具包
FastDeploy: 一款具備 PD 分離與廣泛硬體加速功能的生產級 LLM 與 VLM 部署工具包
它解決了什麼問題
FastDeploy 解決了在生產環境中部署大型語言模型 (LLMs) 與視覺語言模型 (VLMs) 的複雜性。它提供了一個生產級的工具包,可優化資源利用率、提高吞吐量,並確保在各種硬體平台上都能達到服務水準目標 (SLO)。
運作原理
FastDeploy 基於 PaddlePaddle 構建,實現了多種高效能推理技術:
- PD 分離:一種負載平衡的 Prefill-Decode 分離策略,允許動態角色切換與上下文快取 (context caching),以優化吞吐量。
- KV Cache 管理:使用輕量級的高效能傳輸函式庫,並智慧選擇 NVLink 或 RDMA 以進行高效的快取傳輸。
- 加速技術:採用投機解碼 (speculative decoding)、多標記預測 (Multi-Token Prediction, MTP) 以及分塊預填充 (chunked prefilling) 來加速生成。
- 量化:支援多種格式,包括 W8A16、W8A8、W4A16、W4A8、W2A16 以及 FP8,以減少記憶體佔用並提高速度。
- API 相容性:提供與 OpenAI 相容的 API,並與 vLLM 介面相容,以便於整合。
對象是誰
它專為需要將 LLMs 與 VLMs(例如 ERNIE、Qwen 與 DeepSeek)部署到各種硬體(包括 NVIDIA GPUs 以及各種專用加速器,如 Kunlunxin XPU、Hygon DCU 與 Intel Gaudi)的開發者與工程師而設計。
重點特色
- 廣泛的硬體支援:相容於 NVIDIA、Kunlunxin、Hygon、Iluvatar、Enflame、Metax 與 Intel Gaudi。
- 生產級功能:包含負載平衡的 PD 分離與全域快取池 (global cache pooling)。
- vLLM 相容性:允許透過與 vLLM 相容的介面進行單指令部署。
- 廣泛的模型支援:支援多種模型,包括 Qwen3-VL、DeepSeek V3 與 ERNIE 系列。
Sources
- undefinedPaddlePaddle/FastDeploy