LLaDA:一种大规模掩码扩散语言模型,在性能上可与自回归 LLM 相媲美

LLaDA:一种大规模掩码扩散语言模型,在性能上可与自回归 LLM 相媲美

它解决了什么问题

LLaDA 解决了高性能大语言模型(LLM)几乎全部采用自回归方式(预测下一个 token)的局限性。它探讨了基于扩散的语言建模方法是否能够达到类似 LLaMA3 等模型的性能,同时有望克服“逆转诅咒”等问题,并为生成式文本提供一种不同的理论基础。

工作原理

与标准 LLM 从左到右逐 token 生成文本不同,LLaDA 是一种掩码扩散模型。它使用 Transformer 架构,但采用概率建模方法,学习从掩码序列中恢复原始 token。在训练时,掩码比例在 0 到 1 之间随机变化,使其目标成为模型分布负对数似然的上界。这使得它能够作为生成模型,实现上下文学习和指令遵循。

适用人群

本项目主要面向对非自回归生成、文本扩散模型以及探索语言建模架构理论上限感兴趣的 AI 研究者和开发者。

亮点

  • 规模:一个从头训练的 8B 参数模型,性能可与 LLaMA3 8B 相匹敌。
  • 架构灵活性:使用标准 Transformer 架构,无需将时间 $t$ 作为输入。
  • 变体:包括用于聊天的 Instruct 版本、视觉语言版本(LLaDA-V)以及在推理时仅使用约 1B 活跃参数的 Mixture-of-Experts 版本(LLaDA-MoE)。
  • 效率提升:iLLaDA 版本在基准性能和生成效率上均有改进。

摘要

LLaDA 是一种大规模掩码扩散语言模型,通过扩散过程预测 token,而非传统的下一个 token 预测,能够实现与 LLaMA3 8B 等自回归模型相当的性能。

标题

LLaDA:一种大规模掩码扩散语言模型,在性能上可与自回归 LLM 相媲美

Sources