Stanford CS25: Transformers United V6 - 从语言模型到原生多模态智能

原生多模态智能：从 LLM 向多模态的转变

原生多模态智能旨在构建能够在单一架构中无缝处理符号知识和多模态信息（图像、音频、视频）的 AI 系统。虽然大语言模型（LLM）通过对符号信息进行下一个 token 预测取得了突破，但它们不足以与本质上是多模态的物理世界交互。

现代原生多模态模型通过在所有模态上执行 token 化来扩展 LLM 范式。通过将非文本信号转换为 token——无论是对图像进行 patch 化还是对音频进行波形变换——这些模型都可以使用类似于标准语言模型的全局自回归生成建模进行训练。

多模态模型通常根据其输出能力分为两类：

多模态输入，文本输出： 这些模型以多模态序列为条件，但仅在文本 token 上计算损失。该方法被 Gemini、Qwen、Kimi 等模型采用，以实现高级理解和问答。
全能模型（Omni Models）： 这些模型接受多模态输入并生成多模态输出（文本、图像和音频），如 GPT-4o。

Chameleon 系列模型检验了每种模态都可以转换为离散 token 的假设。对于图像，这涉及将图像 "patch 化"、运行连续编码器，然后将嵌入匹配到学习到的向量码本（使用 VQ‑VAE 技术）。这使模型能够以任意顺序交错生成文本和图像。

然而，离散 token 化带来了两个主要限制：

Transfusion 通过在单个 transformer 中将自回归语言建模与基于扩散的图像生成相结合，解决了离散 token 的局限性。文本遵循标准的自回归预测，图像片段则通过扩散操作处理。

Transfusion 的关键架构差异包括：

尽管在图像质量和 token 效率上表现优越，Transfusion 仍面临一个 "两难"：用于生成的 VAE 表示在图像理解上并不同样高效。

由于不同模态的信息密度不同，使用统一的 transformer 参数处理所有数据可能效率低下。Mixture of Transformers（MoT） 架构为注意力层和前馈层的投影矩阵引入了模态特定参数。

MoT 采用确定性路由：如果 token 是文本，则激活文本专用参数；如果是图像 token，则使用图像专用参数。经过独立的 QKV 投影后，联合注意力机制使不同模态得以统一，随后进行模态特定的前馈处理。

对全能模型的研究揭示了理解与生成之间的不对称关系：

虽然下一个 token 预测在语言上有效，但视频的下一帧预测尚未产生相同的推理能力。可能的假设包括：

虽然当前的全能模型在数字信息处理方面表现出色，但在物理世界智能方面仍有显著差距。未来研究重点包括：

摘要：Victoria Lin 讨论了原生多模态语言模型的演进，详细阐述了跨模态 token 化以及 Mixture of Transformers（MoT）等专用架构如何实现文本、图像和音频的无缝融合。

标题：Stanford CS25：Transformers United V6 - 从语言模型到原生多模态智能