lmdeploy: 2つの推論エンジンを備えたLLMおよびVLMの圧縮とサービングのための高スループット・ツールキット

何を解決するか

LMDeployは、大規模言語モデル（LLM）および視覚言語モデル（VLM）の圧縮、デプロイ、およびサービングのプロセスを簡素化および最適化するために設計されたツールキットです。高スループットなサービングと効率的な量子化技術を提供することで、LLM推論における高い計算コストとレイテンシの課題に対処します。

仕組み

このプロジェクトは、2つの異なる推論エンジンを提供します。最大パフォーマンスに最適化されたTurboMind、および開発者の障壁を下げ、迅速な実験を可能にするためにPythonで開発されたPyTorchベースのエンジンです。リクエストのスループットを向上させるために、persistent batching (continuous batching)、blocked KV cache、tensor parallelism、および高性能なCUDA kernelsを利用しています。

対象ユーザー

本ツールキットは、LLMおよびVLMを本番環境にデプロイする必要がある開発者やAIエンジニア、および新しいモデルアーキテクチャや機能を実験したい研究者向けに設計されています。

ハイライト

高スループット: vLLMよりも最大1.8倍高いリクエストスループットを実現します。
幅広いモデルサポート: 膨大な数のLLM（例：Llama, Qwen, DeepSeek, Mistral, Phi）およびVLM（例：InternVL, LLaVA, Qwen-VL）をサポートしています。
効果的な量子化: weight-onlyおよびKV cache量子化（AWQを含む）をサポートし、4-bit推論パフォーマンスはFP16よりも最大2.4倍高速です。
分散サーバー: 複数のマシンやカードにわたるマルチモデルサービスの容易なデプロイを促進します。
ハードウェア互換性: NVIDIA GPU（RTX 50 seriesを含む）およびHuawei Ascendプラットフォームをサポートしています。

lmdeploy: 2つの推論エンジンを備えたLLMおよびVLMの圧縮とサービングのための高スループット・ツールキット

lmdeploy: 2つの推論エンジンを備えたLLMおよびVLMの圧縮とサービングのための高スループット・ツールキット

何を解決するか

仕組み

対象ユーザー

ハイライト

Sources