Stanford CS25:Transformers United V6 - 从语言模型到原生多模态智能

Stanford CS25: Transformers United V6 - 从语言模型到原生多模态智能

原生多模态智能:从 LLM 向多模态的转变

原生多模态智能旨在构建能够在单一架构中无缝处理符号知识和多模态信息(图像、音频、视频)的 AI 系统。虽然大语言模型(LLM)通过对符号信息进行下一个 token 预测取得了突破,但它们不足以与本质上是多模态的物理世界交互。

现代原生多模态模型通过在所有模态上执行 token 化来扩展 LLM 范式。通过将非文本信号转换为 token——无论是对图像进行 patch 化还是对音频进行波形变换——这些模型都可以使用类似于标准语言模型的全局自回归生成建模进行训练。

多模态模型的架构范式

多模态模型通常根据其输出能力分为两类:

  • 多模态输入,文本输出: 这些模型以多模态序列为条件,但仅在文本 token 上计算损失。该方法被 Gemini、Qwen、Kimi 等模型采用,以实现高级理解和问答。
  • 全能模型(Omni Models): 这些模型接受多模态输入并生成多模态输出(文本、图像和音频),如 GPT-4o。

Token 化与离散表示

Chameleon 系列模型检验了每种模态都可以转换为离散 token 的假设。对于图像,这涉及将图像 "patch 化"、运行连续编码器,然后将嵌入匹配到学习到的向量码本(使用 VQ‑VAE 技术)。这使模型能够以任意顺序交错生成文本和图像。

然而,离散 token 化带来了两个主要限制:

  1. 信息损失: 与 SigLIP 等连续编码相比,离散化在图像理解任务中导致显著的信息损失。
  2. Token 效率低下: 这些模型需要海量数据才能采样出结构良好的图像。

统一自回归与扩散

Transfusion 通过在单个 transformer 中将自回归语言建模与基于扩散的图像生成相结合,解决了离散 token 的局限性。文本遵循标准的自回归预测,图像片段则通过扩散操作处理。

Transfusion 的关键架构差异包括:

  • 因果注意力(Causal Attention): 用于文本。
  • 双向注意力(Bidirectional Attention): 用于图像,以提升性能。

尽管在图像质量和 token 效率上表现优越,Transfusion 仍面临一个 "两难":用于生成的 VAE 表示在图像理解上并不同样高效。

可扩展性与效率:Transformer 混合(Mixture of Transformers,MoT)

由于不同模态的信息密度不同,使用统一的 transformer 参数处理所有数据可能效率低下。Mixture of Transformers(MoT) 架构为注意力层和前馈层的投影矩阵引入了模态特定参数。

MoT 的工作原理

MoT 采用确定性路由:如果 token 是文本,则激活文本专用参数;如果是图像 token,则使用图像专用参数。经过独立的 QKV 投影后,联合注意力机制使不同模态得以统一,随后进行模态特定的前馈处理。

MoT 实验的关键发现

  • 非文本生成: MoT 显著提升了图像和语音的生成能力,同时不牺牲文本性能。
  • 容量竞争: 独立参数防止了单一 transformer 在处理本质上不同的数据类型时出现的 "容量竞争"。
  • 异步训练: MoT 通过添加新模态参数并冻结文本模型,能够在现有成品文本模型上扩展,而无需进行完整的微调。

理解与生成的关系

对全能模型的研究揭示了理解与生成之间的不对称关系:

  • 理解 → 生成: 基础模型的理解能力越强,生成质量越好,体现在信息图的细节更丰富、幻觉更少。
  • 生成 → 理解: 专门针对非文本生成(如图像生成)进行训练,并不一定提升模型的图像理解能力。

“下一帧预测”之谜

虽然下一个 token 预测在语言上有效,但视频的下一帧预测尚未产生相同的推理能力。可能的假设包括:

  • 抽象程度: 语言是人类认知与推理的高度压缩抽象,而图像/视频是原始感官数据。
  • 损失曲面: 视觉数据的损失曲面更为复杂;模型的损失可能下降,但生成的输出在人类眼中仍显劣质。
  • 冗余度: 与文本的信息密度相比,视频帧包含大量冗余信息。

多模态 AI 的未来方向

虽然当前的全能模型在数字信息处理方面表现出色,但在物理世界智能方面仍有显著差距。未来研究重点包括:

  • 时空理解: 提升实时理解和机器人控制能力。
  • 视觉‑语言‑动作(VLA)模型: 将多模态 LLM 作为机器人动作预测的骨干。
  • 统一表示: 寻找一种能够同时服务于感知与生成的单一表示,可能需要超越当前生成使用 VAE、理解使用连续编码器的划分。

摘要:Victoria Lin 讨论了原生多模态语言模型的演进,详细阐述了跨模态 token 化以及 Mixture of Transformers(MoT)等专用架构如何实现文本、图像和音频的无缝融合。

标题:Stanford CS25:Transformers United V6 - 从语言模型到原生多模态智能

Sources