llm-d: それが何か、解決する問題、そして注目を集めている理由

llm-d: それが何か、解決する問題、そして注目を集めている理由

解決する課題

llm-d は、プロダクション環境で大規模言語モデル(LLM)をスケールしてデプロイする際に必要となる複雑さとパフォーマンスチューニングを解消します。さまざまなハードウェアアクセラレータやインフラプロバイダーにまたがる推論最適化の「重労働」を排除し、ユーザーが Kubernetes 上で最先端(SOTA)のパフォーマンスと信頼性を実現できるよう支援します。

仕組み

llm-d は、vLLM や SGLang といったモデルサーバーの上に位置するオーケストレーションおよび最適化レイヤーとして機能します。Kubernetes と統合し、以下の主要な技術最適化を備えた分散推論サービススタックを提供します。

  • インテリジェントルーティング: プレフィックスキャッシュと負荷感知型バランシング、さらに予測レイテンシに基づくスケジューリングを利用してレイテンシを削減し、スループットを向上させます。
  • KV-Cache 管理: KV キャッシュを CPU またはディスクへ階層的にオフロードし、グローバルインデックス付与することで、マルチターン会話における実効作業集合サイズを拡大します。
  • 分散型サービング: プレフィルフェーズとデコードフェーズを分離し、超高速インターコネクト上で広範なエキスパート並列処理を活用して巨大モデルを最適化します。
  • 運用ツール: SLO を考慮したオートスケーリング、マルチテナント環境向けのインテリジェントフロー制御、オフライン処理用の OpenAI 互換 Batch API を提供します。

対象ユーザー

Kubernetes 上で NVIDIA、AMD、Intel、Google TPU など多様なハードウェアアクセラレータを用いて、高スケールかつ実運用の LLM トラフィックをデプロイするエンジニアや組織を対象としています。

ハイライト

  • CNCF Sandbox プロジェクト: Red Hat、Google Cloud、IBM Research、CoreWeave、NVIDIA などのコンソーシアムにより設立。
  • 顕著なパフォーマンス向上: プレフィックスキャッシュルーティングとプレフィル/デコード分離により、最大 3 倍の出力スループットとトークン/秒 70% の向上を実証。
  • ハードウェア非依存: 幅広いアクセラレータとインフラプロバイダーに最適化。
  • 本番環境向けレシピ: ベンチマーク済みガイドと Helm チャートを含み、最適化ベースラインのデプロイを簡素化。

要約: llm-d は、Kubernetes 上でさまざまなハードウェアアクセラレータを横断して LLM の本番デプロイを最適化する、高性能な分散推論サービススタックです。

タイトル: llm-d: それが何か、解決する問題、そして注目を集めている理由

Sources