LLaDA: 一個在性能上足以媲美自回歸 LLM 的大規模掩碼擴散語言模型

LLaDA: 一個在性能上足以媲美自回歸 LLM 的大規模掩碼擴散語言模型

它解決了什麼問題

LLaDA 解決了高性能大語言模型 (LLM) 幾乎完全是自回歸(預測下一個 token)這一限制。它探索了基於擴散的語言建模方法是否能達到與 LLaMA3 等模型相當的性能,同時可能克服「逆轉詛咒」(reversal curse) 並為生成式文本提供不同的理論基礎。

它是如何運作的

與從左到右逐個 token 生成文本的標準 LLM 不同,LLaDA 是一個掩碼擴散模型。它使用 Transformer 架構,但採用了一種概率建模方法,學習從掩碼序列中恢復原始 token。在訓練期間,它使用在 0 到 1 之間隨機變化的掩碼率,使其目標函數成為模型分佈負對數似然的上界。這使其能夠作為一個具備上下文學習 (in-context learning) 和指令遵循能力的生成式模型。

對象是誰

此專案主要針對對非自回歸生成、文本擴散模型以及探索語言建模架構理論上限的人感興趣的 AI 研究人員和開發人員。

重點

  • 規模: 一個從頭開始訓練的 8B 參數模型,其性能足以媲美 LLaMA3 8B。
  • 架構靈活性: 使用標準 Transformer 架構,不需要將時間 $t$ 作為輸入。
  • 變體: 包括用於對話的 Instruct 版本、視覺語言版本 (LLaDA-V) 以及在推理時僅使用約 1B 激活參數的混合專家版本 (LLaDA-MoE)。
  • 效率改進: iLLaDA 版本同時提升了基準測試性能和生成效率。

Sources