LLaDA：一种大规模掩码扩散语言模型，在性能上可与自回归 LLM 相媲美

它解决了什么问题

LLaDA 解决了高性能大语言模型（LLM）几乎全部采用自回归方式（预测下一个 token）的局限性。它探讨了基于扩散的语言建模方法是否能够达到类似 LLaMA3 等模型的性能，同时有望克服“逆转诅咒”等问题，并为生成式文本提供一种不同的理论基础。

工作原理

与标准 LLM 从左到右逐 token 生成文本不同，LLaDA 是一种掩码扩散模型。它使用 Transformer 架构，但采用概率建模方法，学习从掩码序列中恢复原始 token。在训练时，掩码比例在 0 到 1 之间随机变化，使其目标成为模型分布负对数似然的上界。这使得它能够作为生成模型，实现上下文学习和指令遵循。

适用人群

本项目主要面向对非自回归生成、文本扩散模型以及探索语言建模架构理论上限感兴趣的 AI 研究者和开发者。

亮点

规模：一个从头训练的 8B 参数模型，性能可与 LLaMA3 8B 相匹敌。
架构灵活性：使用标准 Transformer 架构，无需将时间 $t$ 作为输入。
变体：包括用于聊天的 Instruct 版本、视觉语言版本（LLaDA-V）以及在推理时仅使用约 1B 活跃参数的 Mixture-of-Experts 版本（LLaDA-MoE）。
效率提升：iLLaDA 版本在基准性能和生成效率上均有改进。

摘要

LLaDA 是一种大规模掩码扩散语言模型，通过扩散过程预测 token，而非传统的下一个 token 预测，能够实现与 LLaMA3 8B 等自回归模型相当的性能。

标题

LLaDA：一种大规模掩码扩散语言模型，在性能上可与自回归 LLM 相媲美

LLaDA：一种大规模掩码扩散语言模型，在性能上可与自回归 LLM 相媲美

LLaDA：一种大规模掩码扩散语言模型，在性能上可与自回归 LLM 相媲美

它解决了什么问题

工作原理

适用人群

亮点

摘要

标题

Sources