FastDeploy: PD分離と広範なハードウェアアクセラレーションを備えた、プロダクション対応のLLMおよびVLMデプロイメントツールキット

FastDeploy: PD分離と広範なハードウェアアクセラレーションを備えた、プロダクション対応のLLMおよびVLMデプロイメントツールキット

解決する課題

FastDeployは、プロダクション環境における大規模言語モデル(LLM)および視覚言語モデル(VLM)のデプロイの複雑さを解決します。リソース利用率を最適化し、スループットを向上させ、幅広いハードウェアプラットフォームにわたってサービスレベル目標(SLO)が確実に達成されるようにする、プロダクション対応のツールキットを提供します。

仕組み

PaddlePaddle上に構築されたFastDeployは、いくつかの高性能な推論技術を実装しています:

  • PD分離: スループットを最適化するために、動的なロール切り替えとコンテキストキャッシュを可能にする、ロードバランスされたPrefill-Decode分離戦略。
  • KV Cache Management: NVLinkまたはRDMAをインテリジェントに選択して効率的なキャッシュ転送を行う、軽量で高性能な転送ライブラリを使用。
  • Acceleration Techniques: 生成を高速化するために、speculative decoding、Multi-Token Prediction (MTP)、およびchunked prefillingを採用。
  • Quantization: メモリ使用量を削減し速度を向上させるために、W8A16、W8A8、W4A16、W4A8、W2A16、およびFP8を含む複数のフォーマットをサポート。
  • API Compatibility: OpenAI互換のAPIを提供し、vLLMインターフェースとも互換性があるため、統合が容易です。

対象ユーザー

NVIDIA GPUや、Kunlunxin XPU、Hygon DCU、Intel Gaudiなどの様々な特化型アクセラレータを含む、多様なハードウェア上でLLMおよびVLM(ERNIE、Qwen、DeepSeekなど)をプロダクション環境にデプロイする必要がある開発者やエンジニア向けに設計されています。

ハイライト

  • 広範なハードウェアサポート: NVIDIA、Kunlunxin、Hygon、Iluvatar、Enflame、Metax、およびIntel Gaudiと互換。
  • プロダクショングレードの機能: ロードバランスされたPD分離とグローバルキャッシュプーリングを含む。
  • vLLM互換性: vLLM互換のインターフェースにより、単一コマンドでのデプロイが可能。
  • 広範なモデルサポート: Qwen3-VL、DeepSeek V3、およびERNIEシリーズを含む幅広いモデルをサポート。

Sources