llm-d：它是什麼、解決了什麼問題以及為何受到關注

llm-d：它是什麼、解決了什麼問題以及為何受到關注

它解決了什麼

llm-d 針對在生產環境中大規模部署大型語言模型（LLM）所需的複雜性與效能調校問題。它消除在不同硬體加速器與基礎設施供應商上優化推論的「繁重工作」，協助使用者在 Kubernetes 上達成最先進（SOTA）的效能與可靠性。

它如何運作

llm-d 作為一層編排與優化層，位於 vLLM、SGLang 等模型伺服器之上。它與 Kubernetes 整合，提供具備多項關鍵技術優化的分散式推論服務堆疊：

智慧路由： 使用前綴快取與負載感知平衡，並結合預測延遲的排程，以降低延遲並提升吞吐量。
KV 快取管理： 實作分層卸載 KV 快取至 CPU 或磁碟，並透過全域索引提升多輪對話的有效工作集大小。
解耦服務： 透過將 prefill 與 decode 階段分離，並利用高速互連的寬度專家平行化，優化超大型模型。
運維工具： 提供符合 SLO 的自動擴縮、針對多租戶環境的智慧流量控制，以及相容 OpenAI 的批次 API 供離線處理使用。

目標對象

此工具設計給在 Kubernetes 上，使用各種硬體加速器（如 NVIDIA、AMD、Intel 與 Google TPU）部署高規模、真實 LLM 流量的工程師與組織。

重點特色

CNCF Sandbox 專案： 由 Red Hat、Google Cloud、IBM Research、CoreWeave 與 NVIDIA 等聯盟共同發起。
顯著效能提升： 透過前綴快取路由與 prefill/decode 解耦，展示最高可達 3 倍的輸出吞吐量與 70% 的 token/秒提升。
硬體無關性： 為各類加速器與基礎設施供應商進行最佳化。
上線即用的範本： 包含已基準測試的指南與 Helm chart，簡化最佳化基線的部署流程。

Sources

undefinedllm-d/llm-d