PaddleNLP
PaddleNLP: それが何か、解決する問題、そして注目を集めている理由
解決する課題
PaddleNLP は、PaddlePaddle 深層学習フレームワーク上に構築された大規模言語モデル(LLM)向け開発スイートです。トレーニング、圧縮、推論という LLM の全ライフサイクルの複雑さに対処し、さまざまなハードウェアプラットフォームで動作する統一ツールキットを提供することで、異なるチップ間の切り替えに伴う開発コストを削減します。
仕組み
このスイートは、AI パイプラインの各段階に対応した包括的なツールセットを提供します。
- トレーニング: データ並列、グループ化パラメータシャーディング、テンソルモデル並列、パイプラインモデル並列という 4 つの高性能トレーニング手法をサポートし、動的リソーススケーリングと効率的なモデル保存を実現する Unified Checkpoint ツールを含みます。
- ファインチューニング: ゼロパディングデータストリームと FlashMask 演算子を活用し、無駄な計算を削減してスループットを向上させます。
- 推論: 動的挿入と演算子融合戦略を備えた高性能推論モジュールにより、生成速度を加速します。
- ハードウェア適応: NVIDIA GPU、Kunlun XPU、Ascend NPU、Suizyuan GCU、Haiguang DCU など、複数のハードウェアバックエンドをサポートする標準化インターフェースを提供します。
対象ユーザー
産業レベルの LLM アプリケーションを実装したい開発者や組織向けに設計されており、特に Llama、Qwen、DeepSeek などの人気モデルを多様なハードウェア環境で効率的にトレーニング・デプロイしたいケースに適しています。
ハイライト
- 幅広いモデルサポート: Llama(最大 3.3)、Qwen(最大 3)、DeepSeek(V2、V3、R1)、ChatGLM、Mistral など、多種多様なモデルファミリーに対応。
- ハードウェア柔軟性: NVIDIA GPU に限らず、複数の AI アクセラレータをネイティブにサポート。
- ストレージ効率: Unified Checkpoint 技術によりモデル保存が最大 95% 高速化し、ストレージ容量を最大 78.5% 削減。
- 高度な推論: FP8、INT8、4 ビット量子化に加え、スペキュレーティブデコーディングをサポートし、高スループット推論を実現。
Sources
- undefinedPaddlePaddle/PaddleNLP