lmdeploy: 2つの推論エンジンを備えたLLMおよびVLMの圧縮とサービングのための高スループット・ツールキット
lmdeploy: 2つの推論エンジンを備えたLLMおよびVLMの圧縮とサービングのための高スループット・ツールキット
何を解決するか
LMDeployは、大規模言語モデル(LLM)および視覚言語モデル(VLM)の圧縮、デプロイ、およびサービングのプロセスを簡素化および最適化するために設計されたツールキットです。高スループットなサービングと効率的な量子化技術を提供することで、LLM推論における高い計算コストとレイテンシの課題に対処します。
仕組み
このプロジェクトは、2つの異なる推論エンジンを提供します。最大パフォーマンスに最適化されたTurboMind、および開発者の障壁を下げ、迅速な実験を可能にするためにPythonで開発されたPyTorchベースのエンジンです。リクエストのスループットを向上させるために、persistent batching (continuous batching)、blocked KV cache、tensor parallelism、および高性能なCUDA kernelsを利用しています。
対象ユーザー
本ツールキットは、LLMおよびVLMを本番環境にデプロイする必要がある開発者やAIエンジニア、および新しいモデルアーキテクチャや機能を実験したい研究者向けに設計されています。
ハイライト
- 高スループット: vLLMよりも最大1.8倍高いリクエストスループットを実現します。
- 幅広いモデルサポート: 膨大な数のLLM(例:Llama, Qwen, DeepSeek, Mistral, Phi)およびVLM(例:InternVL, LLaVA, Qwen-VL)をサポートしています。
- 効果的な量子化: weight-onlyおよびKV cache量子化(AWQを含む)をサポートし、4-bit推論パフォーマンスはFP16よりも最大2.4倍高速です。
- 分散サーバー: 複数のマシンやカードにわたるマルチモデルサービスの容易なデプロイを促進します。
- ハードウェア互換性: NVIDIA GPU(RTX 50 seriesを含む)およびHuawei Ascendプラットフォームをサポートしています。
Sources
- undefinedInternLM/lmdeploy