llm-d:它是什么、解决了什么问题以及为何受到关注
llm-d:它是什么、解决了什么问题以及为何受到关注
它解决了什么
llm-d 旨在应对在生产环境中大规模部署大型语言模型(LLM)时所需的复杂性和性能调优。它消除了在不同硬件加速器和基础设施提供商之间优化推理的“繁重工作”,帮助用户在 Kubernetes 上实现最先进(SOTA)的性能和可靠性。
工作原理
llm-d 充当位于 vLLM、SGLang 等模型服务器之上的编排与优化层。它与 Kubernetes 集成,提供一个分布式推理服务栈,并具备以下关键技术优化:
- 智能路由: 使用前缀缓存和负载感知均衡,以及基于预测延迟的调度,降低延迟并提升吞吐量。
- KV‑Cache 管理: 实现 KV 缓存的分层卸载到 CPU 或磁盘,并通过全局索引扩大多轮对话的有效工作集大小。
- 解耦服务: 通过将预填充(prefill)和解码(decode)阶段分离,并利用高速互连实现宽专家并行,优化超大模型。
- 运维工具: 提供基于 SLO 的自动扩缩容、多租户环境的智能流控,以及兼容 OpenAI 的批处理 API 用于离线处理。
适用人群
该项目面向在 Kubernetes 上使用各种硬件加速器(如 NVIDIA、AMD、Intel 和 Google TPU)部署高规模、真实业务 LLM 流量的工程师和组织。
亮点
- CNCF 沙盒项目: 由 Red Hat、Google Cloud、IBM Research、CoreWeave 和 NVIDIA 等联盟发起。
- 显著的性能提升: 通过前缀缓存路由和预填充/解码解耦,实现最高 3 倍的输出吞吐量提升和 70% 的 token/秒提升。
- 硬件无关: 针对多种加速器和基础设施提供商进行优化。
- 生产就绪方案: 包含基准指南和 Helm Chart,简化优化基线的部署。
摘要: llm-d 是一个面向 Kubernetes 的高性能分布式推理服务栈,能够在各种硬件加速器上优化 LLM 的生产部署。
标题: llm-d:它是什么、解决了什么问题以及为何受到关注
Sources
- undefinedllm-d/llm-d