LLaDA: 一個在性能上足以媲美自回歸 LLM 的大規模掩碼擴散語言模型

它解決了什麼問題

LLaDA 解決了高性能大語言模型 (LLM) 幾乎完全是自回歸（預測下一個 token）這一限制。它探索了基於擴散的語言建模方法是否能達到與 LLaMA3 等模型相當的性能，同時可能克服「逆轉詛咒」(reversal curse) 並為生成式文本提供不同的理論基礎。

它是如何運作的

與從左到右逐個 token 生成文本的標準 LLM 不同，LLaDA 是一個掩碼擴散模型。它使用 Transformer 架構，但採用了一種概率建模方法，學習從掩碼序列中恢復原始 token。在訓練期間，它使用在 0 到 1 之間隨機變化的掩碼率，使其目標函數成為模型分佈負對數似然的上界。這使其能夠作為一個具備上下文學習 (in-context learning) 和指令遵循能力的生成式模型。

對象是誰

此專案主要針對對非自回歸生成、文本擴散模型以及探索語言建模架構理論上限的人感興趣的 AI 研究人員和開發人員。

重點

規模: 一個從頭開始訓練的 8B 參數模型，其性能足以媲美 LLaMA3 8B。
架構靈活性: 使用標準 Transformer 架構，不需要將時間 $t$ 作為輸入。
變體: 包括用於對話的 Instruct 版本、視覺語言版本 (LLaDA-V) 以及在推理時僅使用約 1B 激活參數的混合專家版本 (LLaDA-MoE)。
效率改進: iLLaDA 版本同時提升了基準測試性能和生成效率。

LLaDA: 一個在性能上足以媲美自回歸 LLM 的大規模掩碼擴散語言模型

LLaDA: 一個在性能上足以媲美自回歸 LLM 的大規模掩碼擴散語言模型

它解決了什麼問題

它是如何運作的

對象是誰

重點

Sources