llm-d：它是什么、解决了什么问题以及为何受到关注

llm-d：它是什么、解决了什么问题以及为何受到关注

它解决了什么

llm-d 旨在应对在生产环境中大规模部署大型语言模型（LLM）时所需的复杂性和性能调优。它消除了在不同硬件加速器和基础设施提供商之间优化推理的“繁重工作”，帮助用户在 Kubernetes 上实现最先进（SOTA）的性能和可靠性。

工作原理

llm-d 充当位于 vLLM、SGLang 等模型服务器之上的编排与优化层。它与 Kubernetes 集成，提供一个分布式推理服务栈，并具备以下关键技术优化：

智能路由： 使用前缀缓存和负载感知均衡，以及基于预测延迟的调度，降低延迟并提升吞吐量。
KV‑Cache 管理： 实现 KV 缓存的分层卸载到 CPU 或磁盘，并通过全局索引扩大多轮对话的有效工作集大小。
解耦服务： 通过将预填充（prefill）和解码（decode）阶段分离，并利用高速互连实现宽专家并行，优化超大模型。
运维工具： 提供基于 SLO 的自动扩缩容、多租户环境的智能流控，以及兼容 OpenAI 的批处理 API 用于离线处理。

适用人群

该项目面向在 Kubernetes 上使用各种硬件加速器（如 NVIDIA、AMD、Intel 和 Google TPU）部署高规模、真实业务 LLM 流量的工程师和组织。

亮点

CNCF 沙盒项目： 由 Red Hat、Google Cloud、IBM Research、CoreWeave 和 NVIDIA 等联盟发起。
显著的性能提升： 通过前缀缓存路由和预填充/解码解耦，实现最高 3 倍的输出吞吐量提升和 70% 的 token/秒提升。
硬件无关： 针对多种加速器和基础设施提供商进行优化。
生产就绪方案： 包含基准指南和 Helm Chart，简化优化基线的部署。

摘要： llm-d 是一个面向 Kubernetes 的高性能分布式推理服务栈，能够在各种硬件加速器上优化 LLM 的生产部署。

标题： llm-d：它是什么、解决了什么问题以及为何受到关注

Sources

undefinedllm-d/llm-d