lmdeploy: 2つの推論エンジンを備えたLLMおよびVLMの圧縮とサービングのための高スループット・ツールキット

lmdeploy: 2つの推論エンジンを備えたLLMおよびVLMの圧縮とサービングのための高スループット・ツールキット

何を解決するか

LMDeployは、大規模言語モデル(LLM)および視覚言語モデル(VLM)の圧縮、デプロイ、およびサービングのプロセスを簡素化および最適化するために設計されたツールキットです。高スループットなサービングと効率的な量子化技術を提供することで、LLM推論における高い計算コストとレイテンシの課題に対処します。

仕組み

このプロジェクトは、2つの異なる推論エンジンを提供します。最大パフォーマンスに最適化されたTurboMind、および開発者の障壁を下げ、迅速な実験を可能にするためにPythonで開発されたPyTorchベースのエンジンです。リクエストのスループットを向上させるために、persistent batching (continuous batching)、blocked KV cache、tensor parallelism、および高性能なCUDA kernelsを利用しています。

対象ユーザー

本ツールキットは、LLMおよびVLMを本番環境にデプロイする必要がある開発者やAIエンジニア、および新しいモデルアーキテクチャや機能を実験したい研究者向けに設計されています。

ハイライト

  • 高スループット: vLLMよりも最大1.8倍高いリクエストスループットを実現します。
  • 幅広いモデルサポート: 膨大な数のLLM(例:Llama, Qwen, DeepSeek, Mistral, Phi)およびVLM(例:InternVL, LLaVA, Qwen-VL)をサポートしています。
  • 効果的な量子化: weight-onlyおよびKV cache量子化(AWQを含む)をサポートし、4-bit推論パフォーマンスはFP16よりも最大2.4倍高速です。
  • 分散サーバー: 複数のマシンやカードにわたるマルチモデルサービスの容易なデプロイを促進します。
  • ハードウェア互換性: NVIDIA GPU(RTX 50 seriesを含む)およびHuawei Ascendプラットフォームをサポートしています。

Sources