LLaDA: 自己回帰型LLMに匹敵する性能を持つ大規模マスク・ディフュージョン言語モデル

LLaDA: 自己回帰型LLMに匹敵する性能を持つ大規模マスク・ディフュージョン言語モデル

解決する課題

LLaDAは、高性能な大規模言語モデル(LLM)がほぼ例外なく自己回帰型(次のトークンを予測する形式)であるという制限に対処します。ディフュージョン・ベースの言語モデリング・アプローチが、LLaMA3のようなモデルに匹敵する性能を達成できるか、また「逆転の呪い(reversal curse)」のような問題を克服し、生成テキストに対して異なる理論的基盤を提供できるかを探求します。

仕組み

テキストを左から右へとトークンごとに生成する標準的なLLMとは異なり、LLaDAはマスク・ディフュージョン・モデルです。Transformerアーキテクチャを使用していますが、マスクされたシーケンスから元のトークンを復元することを学習する確率論的モデリング・アプローチを採用しています。トレーニング中、0から1の間でランダムに変化するマスキング比率を使用し、モデル分布の負の対数尤度の(理論的な)上限を目的関数とします。これにより、インコンテキスト学習や指示に従うことが可能な生成モデルとして機能します。

対象者

このプロジェクトは、主に、非自己回帰型生成、テキスト用ディフュージョン・モデル、および言語モデリング・アーキテクチャの理論的な限界を探求しているAI研究者や開発者を対象としています。

ハイライト

  • Scale: スクラッチからトレーニングされた8Bパラメータのモデルであり、LLaMA3 8Bに匹敵する性能を持ちます。
  • Architectural Flexibility: 入力として時刻 $t$ を必要としない標準的なTransformerアーキテクチャを使用します。
  • Variants: チャット用のInstruct版、視覚と言語を扱うvision-language版(LLaDA-V)、および推論時に約1Bのアクティブ・パラメータのみを使用するMixture-of-Experts版(LLaDA-MoE)が含まれます。
  • Efficiency Improvements: iLLaDAバージョンは、ベンチマーク性能と生成効率の両方を向上させます。

Sources