llm-d:它是什麼、解決了什麼問題以及為何受到關注
llm-d:它是什麼、解決了什麼問題以及為何受到關注
它解決了什麼
llm-d 針對在生產環境中大規模部署大型語言模型(LLM)所需的複雜性與效能調校問題。它消除在不同硬體加速器與基礎設施供應商上優化推論的「繁重工作」,協助使用者在 Kubernetes 上達成最先進(SOTA)的效能與可靠性。
它如何運作
llm-d 作為一層編排與優化層,位於 vLLM、SGLang 等模型伺服器之上。它與 Kubernetes 整合,提供具備多項關鍵技術優化的分散式推論服務堆疊:
- 智慧路由: 使用前綴快取與負載感知平衡,並結合預測延遲的排程,以降低延遲並提升吞吐量。
- KV 快取管理: 實作分層卸載 KV 快取至 CPU 或磁碟,並透過全域索引提升多輪對話的有效工作集大小。
- 解耦服務: 透過將 prefill 與 decode 階段分離,並利用高速互連的寬度專家平行化,優化超大型模型。
- 運維工具: 提供符合 SLO 的自動擴縮、針對多租戶環境的智慧流量控制,以及相容 OpenAI 的批次 API 供離線處理使用。
目標對象
此工具設計給在 Kubernetes 上,使用各種硬體加速器(如 NVIDIA、AMD、Intel 與 Google TPU)部署高規模、真實 LLM 流量的工程師與組織。
重點特色
- CNCF Sandbox 專案: 由 Red Hat、Google Cloud、IBM Research、CoreWeave 與 NVIDIA 等聯盟共同發起。
- 顯著效能提升: 透過前綴快取路由與 prefill/decode 解耦,展示最高可達 3 倍的輸出吞吐量與 70% 的 token/秒提升。
- 硬體無關性: 為各類加速器與基礎設施供應商進行最佳化。
- 上線即用的範本: 包含已基準測試的指南與 Helm chart,簡化最佳化基線的部署流程。
Sources
- undefinedllm-d/llm-d