斯坦福 CS25：Transformers United V6 - 從語言模型到原生多模態智慧

原生多模態智慧：從大型語言模型的轉變

原生多模態智慧旨在構建能在單一架構內無縫處理符號知識與多模態資訊（圖像、音訊、影片）的 AI 系統。大型語言模型（LLM）透過對符號資訊的下一個 token 預測取得突破，但它們不足以與本質上多模態的物理世界互動。

現代原生多模態模型透過在所有模態上執行 token 化，擴展了 LLM 範式。無論是透過圖像的 patch 化或音訊的波形轉換，將非文字訊號轉換為 token 後，這些模型即可使用類似標準語言模型的全域自回歸生成建模進行訓練。

多模態模型大致可依其輸出能力分為兩類：

多模態輸入、文字輸出： 這類模型以多模態序列為條件，但僅對文字 token 計算損失。Gemini、Qwen、Kimi 等模型即採用此方式，以實現高階理解與問答。
全能模型（Omni Models）： 這類模型接受多模態輸入並產生多模態輸出（文字、圖像、音訊），如 GPT-4o。

Chameleon 系列模型測試了「每種模態皆可轉換為離散 token」的假設。對於圖像，這涉及將圖像 "patch 化"、通過連續編碼器，然後將嵌入匹配到學習得到的向量碼本（使用 VQ‑VAE 技術）。此方式允許模型以任意順序交錯生成文字與圖像。

然而，離散 token 化帶來兩大限制：

Transfusion 透過在單一 transformer 中結合自回歸語言模型與基於擴散的圖像生成，解決了離散 token 的限制。文字仍採標準自回歸預測，圖像片段則透過擴散操作處理。

Transfusion 的關鍵架構差異包括：

儘管圖像品質與 token 效率優於前者，Transfusion 仍面臨「兩難」：對生成有效的 VAE 表示在圖像理解上並不同樣高效。

因不同模態的資訊密度各異，使用統一的 transformer 參數處理所有資料往往效率不佳。Mixture of Transformers (MoT) 架構在注意力層與前饋層的投影矩陣中引入模態專屬參數。

MoT 採用決定性路由：若 token 為文字，則啟用文字專屬參數；若為圖像 token，則使用圖像專屬參數。經過分別的 QKV 投影後，透過共同的注意力機制讓不同模態統一，隨後再進行模態專屬的前饋處理。

對全能模型的研究揭示了理解與生成之間的不對稱關係：

雖然下一 token 預測在語言上有效，視頻的下一幀預測尚未帶來相同的推理能力。可能的假設包括：

雖然當前的全能模型在數位資訊處理上表現優異，物理世界智慧仍有顯著缺口。未來研究聚焦於：

時空理解（Spatial‑Temporal Understanding）： 提升即時理解與機器人控制能力。
視覺‑語言‑行動（Vision‑Language‑Action, VLA）模型： 將多模態 LLM 作為機器人行動預測的骨幹。
統一表示（Unified Representations）： 尋找能同時服務感知與生成的單一表示，或許能超越目前生成使用 VAE、理解使用連續編碼器的分離方式。

摘要：Victoria Lin 討論了原生多模態語言模型的演變，說明跨模態 token 化與類似 Mixture of Transformers（MoT）的專屬架構如何實現文字、圖像與音訊的無縫整合。

標題：斯坦福 CS25：Transformers United V6 - 從語言模型到原生多模態智慧