PaddleNLP

PaddleNLP: それが何か、解決する問題、そして注目を集めている理由

解決する課題

PaddleNLP は、PaddlePaddle 深層学習フレームワーク上に構築された大規模言語モデル(LLM)向け開発スイートです。トレーニング、圧縮、推論という LLM の全ライフサイクルの複雑さに対処し、さまざまなハードウェアプラットフォームで動作する統一ツールキットを提供することで、異なるチップ間の切り替えに伴う開発コストを削減します。

仕組み

このスイートは、AI パイプラインの各段階に対応した包括的なツールセットを提供します。

  • トレーニング: データ並列、グループ化パラメータシャーディング、テンソルモデル並列、パイプラインモデル並列という 4 つの高性能トレーニング手法をサポートし、動的リソーススケーリングと効率的なモデル保存を実現する Unified Checkpoint ツールを含みます。
  • ファインチューニング: ゼロパディングデータストリームと FlashMask 演算子を活用し、無駄な計算を削減してスループットを向上させます。
  • 推論: 動的挿入と演算子融合戦略を備えた高性能推論モジュールにより、生成速度を加速します。
  • ハードウェア適応: NVIDIA GPU、Kunlun XPU、Ascend NPU、Suizyuan GCU、Haiguang DCU など、複数のハードウェアバックエンドをサポートする標準化インターフェースを提供します。

対象ユーザー

産業レベルの LLM アプリケーションを実装したい開発者や組織向けに設計されており、特に Llama、Qwen、DeepSeek などの人気モデルを多様なハードウェア環境で効率的にトレーニング・デプロイしたいケースに適しています。

ハイライト

  • 幅広いモデルサポート: Llama(最大 3.3)、Qwen(最大 3)、DeepSeek(V2、V3、R1)、ChatGLM、Mistral など、多種多様なモデルファミリーに対応。
  • ハードウェア柔軟性: NVIDIA GPU に限らず、複数の AI アクセラレータをネイティブにサポート。
  • ストレージ効率: Unified Checkpoint 技術によりモデル保存が最大 95% 高速化し、ストレージ容量を最大 78.5% 削減。
  • 高度な推論: FP8、INT8、4 ビット量子化に加え、スペキュレーティブデコーディングをサポートし、高スループット推論を実現。

Sources