llm-d: 무엇이며, 어떤 문제를 해결하고 왜 주목받고 있는가
llm-d: 무엇이며, 어떤 문제를 해결하고 왜 주목받고 있는가
해결하는 문제
llm-d는 대규모 언어 모델(LLM)을 프로덕션 환경에서 대규모로 배포할 때 필요한 복잡성 및 성능 튜닝을 해결합니다. 다양한 하드웨어 가속기와 인프라 제공자에 걸친 추론 최적화라는 "무거운 작업"을 없애고, 사용자가 Kubernetes에서 최첨단(SOTA) 성능과 안정성을 달성하도록 돕습니다.
작동 방식
llm-d는 vLLM 및 SGLang과 같은 모델 서버 위에 위치하는 오케스트레이션 및 최적화 레이어로 동작합니다. Kubernetes와 통합되어 여러 핵심 기술 최적화를 갖춘 분산 추론 서빙 스택을 제공합니다:
- Intelligent Routing: 프리픽스 캐시와 로드 인식 밸런싱, 그리고 예측 지연 기반 스케줄링을 사용해 지연 시간을 줄이고 처리량을 높입니다.
- KV-Cache Management: KV 캐시를 CPU 또는 디스크로 계층화 오프로드하고 전역 인덱싱을 구현해 다중 턴 대화의 실제 작업 집합 크기를 확대합니다.
- Disaggregated Serving: 프리필(pre‑fill) 단계와 디코드(decode) 단계를 분리하고, 고속 인터커넥트를 통한 광범위한 전문가 병렬성을 활용해 거대한 모델을 최적화합니다.
- Operational Tools: SLO 인식 자동 스케일링, 다중 테넌트 환경을 위한 지능형 흐름 제어, 오프라인 처리를 위한 OpenAI 호환 배치 API 등을 제공합니다.
대상 사용자
Kubernetes 위에서 NVIDIA, AMD, Intel, Google TPU 등 다양한 하드웨어 가속기를 활용해 고규모 실서비스 LLM 트래픽을 운영하는 엔지니어와 조직을 위해 설계되었습니다.
주요 특징
- CNCF Sandbox Project: Red Hat, Google Cloud, IBM Research, CoreWeave, NVIDIA 등 컨소시엄이 설립했습니다.
- 뛰어난 성능 향상: 프리픽스 캐시 라우팅 및 프리필/디코드 분리 덕분에 출력 처리량이 최대 3배, 토큰 처리 속도가 70% 향상되었습니다.
- 하드웨어 비종속: 다양한 가속기와 인프라 제공자에 최적화되었습니다.
- 프로덕션 준비 레시피: 최적화된 베이스라인 배포를 간소화하는 벤치마크 가이드와 Helm 차트를 포함합니다.
SUMMARY: llm-d는 Kubernetes용 고성능 분산 추론 서빙 스택으로, 다양한 하드웨어 가속기에 걸친 LLM 프로덕션 배포를 최적화합니다.
TITLE: llm-d: 무엇이며, 어떤 문제를 해결하고 왜 주목받고 있는가
Sources
- undefinedllm-d/llm-d