斯坦福 CS25:Transformers United V6 - 從語言模型到原生多模態智慧

斯坦福 CS25:Transformers United V6 - 從語言模型到原生多模態智慧

原生多模態智慧:從大型語言模型的轉變

原生多模態智慧旨在構建能在單一架構內無縫處理符號知識與多模態資訊(圖像、音訊、影片)的 AI 系統。大型語言模型(LLM)透過對符號資訊的下一個 token 預測取得突破,但它們不足以與本質上多模態的物理世界互動。

現代原生多模態模型透過在所有模態上執行 token 化,擴展了 LLM 範式。無論是透過圖像的 patch 化或音訊的波形轉換,將非文字訊號轉換為 token 後,這些模型即可使用類似標準語言模型的全域自回歸生成建模進行訓練。

多模態模型的架構範式

多模態模型大致可依其輸出能力分為兩類:

  • 多模態輸入、文字輸出: 這類模型以多模態序列為條件,但僅對文字 token 計算損失。Gemini、Qwen、Kimi 等模型即採用此方式,以實現高階理解與問答。
  • 全能模型(Omni Models): 這類模型接受多模態輸入並產生多模態輸出(文字、圖像、音訊),如 GPT-4o。

Token 化與離散表示

Chameleon 系列模型測試了「每種模態皆可轉換為離散 token」的假設。對於圖像,這涉及將圖像 "patch 化"、通過連續編碼器,然後將嵌入匹配到學習得到的向量碼本(使用 VQ‑VAE 技術)。此方式允許模型以任意順序交錯生成文字與圖像。

然而,離散 token 化帶來兩大限制:

  1. 資訊損失: 與 SigLIP 等連續編碼相比,離散化在圖像理解任務上會造成顯著資訊流失。
  2. Token 效率低下: 這類模型需要大量資料才能抽樣出形態良好的圖像。

結合自回歸與擴散

Transfusion 透過在單一 transformer 中結合自回歸語言模型與基於擴散的圖像生成,解決了離散 token 的限制。文字仍採標準自回歸預測,圖像片段則透過擴散操作處理。

Transfusion 的關鍵架構差異包括:

  • 因果注意力(Causal Attention): 用於文字。
  • 雙向注意力(Bidirectional Attention): 用於圖像,以提升效能。

儘管圖像品質與 token 效率優於前者,Transfusion 仍面臨「兩難」:對生成有效的 VAE 表示在圖像理解上並不同樣高效。

擴展與效率:Transformer 混合模型(Mixture of Transformers, MoT)

因不同模態的資訊密度各異,使用統一的 transformer 參數處理所有資料往往效率不佳。Mixture of Transformers (MoT) 架構在注意力層與前饋層的投影矩陣中引入模態專屬參數。

MoT 的運作方式

MoT 採用決定性路由:若 token 為文字,則啟用文字專屬參數;若為圖像 token,則使用圖像專屬參數。經過分別的 QKV 投影後,透過共同的注意力機制讓不同模態統一,隨後再進行模態專屬的前饋處理。

MoT 實驗的關鍵發現

  • 非文字生成: MoT 大幅提升圖像與語音的生成能力,同時不犧牲文字表現。
  • 容量競爭(Capacity Competition): 分離的參數避免了單一 transformer 處理本質不同資料類型時的容量競爭。
  • 非同步訓練(Asynchronous Training): MoT 允許在現有的即用文字模型上加入新模態參數並凍結文字模型,免除完整微調的需求。

理解與生成的關係

對全能模型的研究揭示了理解與生成之間的不對稱關係:

  • 理解 → 生成: 基礎模型的理解能力越強,生成品質越好,圖表等細節更精緻且幻覺更少。
  • 生成 → 理解: 僅針對非文字生成(例如圖像生成)進行訓練,未必能提升模型的圖像理解能力。

「下一幀預測」之謎

雖然下一 token 預測在語言上有效,視頻的下一幀預測尚未帶來相同的推理能力。可能的假設包括:

  • 抽象化: 語言是高度壓縮的人類認知與推理抽象,而圖像/影片則是原始感官資料。
  • 損失景觀: 視覺資料的損失景觀更為複雜;模型的損失可能下降,但生成結果在人類觀感上仍不佳。
  • 冗餘性: 相較於文字的資訊密度,影片幀包含大量冗餘資訊。

多模態 AI 的未來方向

雖然當前的全能模型在數位資訊處理上表現優異,物理世界智慧仍有顯著缺口。未來研究聚焦於:

  • 時空理解(Spatial‑Temporal Understanding): 提升即時理解與機器人控制能力。
  • 視覺‑語言‑行動(Vision‑Language‑Action, VLA)模型: 將多模態 LLM 作為機器人行動預測的骨幹。
  • 統一表示(Unified Representations): 尋找能同時服務感知與生成的單一表示,或許能超越目前生成使用 VAE、理解使用連續編碼器的分離方式。

摘要:Victoria Lin 討論了原生多模態語言模型的演變,說明跨模態 token 化與類似 Mixture of Transformers(MoT)的專屬架構如何實現文字、圖像與音訊的無縫整合。

標題:斯坦福 CS25:Transformers United V6 - 從語言模型到原生多模態智慧

Sources