llm-d:它是什么、解决了什么问题以及为何受到关注

llm-d:它是什么、解决了什么问题以及为何受到关注

它解决了什么

llm-d 旨在应对在生产环境中大规模部署大型语言模型(LLM)时所需的复杂性和性能调优。它消除了在不同硬件加速器和基础设施提供商之间优化推理的“繁重工作”,帮助用户在 Kubernetes 上实现最先进(SOTA)的性能和可靠性。

工作原理

llm-d 充当位于 vLLM、SGLang 等模型服务器之上的编排与优化层。它与 Kubernetes 集成,提供一个分布式推理服务栈,并具备以下关键技术优化:

  • 智能路由: 使用前缀缓存和负载感知均衡,以及基于预测延迟的调度,降低延迟并提升吞吐量。
  • KV‑Cache 管理: 实现 KV 缓存的分层卸载到 CPU 或磁盘,并通过全局索引扩大多轮对话的有效工作集大小。
  • 解耦服务: 通过将预填充(prefill)和解码(decode)阶段分离,并利用高速互连实现宽专家并行,优化超大模型。
  • 运维工具: 提供基于 SLO 的自动扩缩容、多租户环境的智能流控,以及兼容 OpenAI 的批处理 API 用于离线处理。

适用人群

该项目面向在 Kubernetes 上使用各种硬件加速器(如 NVIDIA、AMD、Intel 和 Google TPU)部署高规模、真实业务 LLM 流量的工程师和组织。

亮点

  • CNCF 沙盒项目: 由 Red Hat、Google Cloud、IBM Research、CoreWeave 和 NVIDIA 等联盟发起。
  • 显著的性能提升: 通过前缀缓存路由和预填充/解码解耦,实现最高 3 倍的输出吞吐量提升和 70% 的 token/秒提升。
  • 硬件无关: 针对多种加速器和基础设施提供商进行优化。
  • 生产就绪方案: 包含基准指南和 Helm Chart,简化优化基线的部署。

摘要: llm-d 是一个面向 Kubernetes 的高性能分布式推理服务栈,能够在各种硬件加速器上优化 LLM 的生产部署。

标题: llm-d:它是什么、解决了什么问题以及为何受到关注

Sources