Stanford CS25: Transformers United V6 - 言語モデルからネイティブマルチモーダルインテリジェンスへ

ネイティブマルチモーダルインテリジェンス：LLM からのシフト

ネイティブマルチモーダルインテリジェンスは、シンボリックな知識とマルチモーダル情報（画像、音声、動画）を単一のアーキテクチャ内でシームレスに処理できる AI システムの構築を目指しています。大規模言語モデル（LLM）はシンボリック情報に対する次トークン予測で画期的な成果を上げましたが、物理世界と相互作用するには不十分です。物理世界は本質的にマルチモーダルです。

最新のネイティブマルチモーダルモデルは、すべてのモダリティに対してトークナイズを行うことで LLM パラダイムを拡張します。画像の場合はパッチ化、音声の場合は波形変換など、非テキスト信号をトークンに変換することで、標準的な言語モデルと同様のグローバル自己回帰生成モデリングで学習できます。

マルチモーダルモデルのアーキテクチャパラダイム

マルチモーダルモデルは、出力能力に基づいて大きく二つに分類されます。

マルチモーダル入力、テキスト出力: これらのモデルはマルチモーダルシーケンスを条件にしますが、損失はテキストトークンに対してのみ計算します。Gemini、Qwen、Kimi などのモデルがこのアプローチを採用し、高度な理解と質問応答を実現しています。
オムニモデル: これらのモデルはマルチモーダル入力を受け取り、テキスト・画像・音声といったマルチモーダル出力を生成します。代表例が GPT-4o です。

トークナイズと離散表現

Chameleon 系列のモデルは、すべてのモダリティを離散トークンに変換できるという仮説を検証します。画像の場合は画像を「パッチ化」し、連続エンコーダを通した後、埋め込みを学習済みベクトルコードブック（VQ‑VAE 手法）にマッチさせます。これにより、モデルは任意の順序でテキストと画像を交互に生成できます。

しかし、離散トークナイズには主に二つの制限があります。

情報損失: 離散化により、SigLIP のような連続エンコーディングに比べて画像理解タスクで大きな情報損失が生じます。
トークン非効率性: これらのモデルは、質の高い画像をサンプリングするために膨大なデータが必要です。

自己回帰と拡散の統合

Transfusion は、離散トークンの制限を克服するために、自己回帰言語モデリングと拡散ベースの画像生成を単一のトランスフォーマーで組み合わせます。テキストは標準的な自己回帰予測を行い、画像セグメントは拡散操作で処理されます。

Transfusion の主なアーキテクチャ上の違いは次の通りです。

因果注意: テキストに使用。
双方向注意: 画像に使用し、性能向上を実現。

画像品質とトークン効率は優れているものの、生成に適した VAE 表現が画像理解には同等に効率的でないという「ジレンマ」に直面しています。

スケーリングと効率性：Mixture of Transformers (MoT)

モダリティごとに情報密度が異なるため、すべてのデータに対して統一されたトランスフォーマーパラメータを使用すると非効率です。Mixture of Transformers (MoT) アーキテクチャは、注意層とフィードフォワード層の投影行列にモダリティ固有のパラメータを導入します。

MoT の仕組み

MoT は決定的ルーティングを採用します。トークンがテキストであればテキスト固有のパラメータが有効化され、画像トークンであれば画像固有のパラメータが使用されます。別々の QKV 投影の後、共同注意機構がモダリティを統合し、続いてモダリティ固有のフィードフォワード処理が行われます。

MoT 実験からの主な知見

非テキスト生成: MoT はテキスト性能を犠牲にせず、画像や音声の生成を大幅に改善します。
容量競合の回避: 別々のパラメータにより、単一のトランスフォーマーが根本的に異なるデータタイプを扱う際に生じる「容量競合」を防ぎます。
非同期学習: MoT により、既存のオフ・ザ・シェルフテキストモデルに新しいモダリティパラメータを追加し、テキストモデルを凍結したまま拡張でき、フルファインチューニングが不要になります。

理解と生成の関係性

オムニモデルに関する研究は、理解と生成の間に非対称的な関係があることを示しています。

理解 → 生成: 基礎モデルの理解能力が高まるほど、生成品質が向上し、インフォグラフィックの細部が鮮明になり、幻覚が減少します。
生成 → 理解: 画像生成など非テキスト生成に特化した学習は、必ずしも画像理解能力を向上させません。

「次フレーム予測」パズル

次トークン予測が言語では有効でも、動画の次フレーム予測は同様の高度な推論能力をもたらしていません。考えられる仮説は次の通りです。

抽象化: 言語は人間の認知と推論を高度に圧縮した抽象表現であるのに対し、画像・動画は生の感覚データです。
損失ランドスケープ: 視覚データの損失ランドスケープはより複雑で、モデルの損失が改善しても人間には品質が低く見えることがあります。
冗長性: 動画フレームはテキストに比べて情報が高度に冗長です。

マルチモーダル AI の今後の方向性

現在のオムニモデルはデジタル情報処理に優れていますが、物理世界でのインテリジェンスには大きなギャップがあります。今後の研究は以下に焦点を当てています。

時空間理解: リアルタイム理解とロボティクス制御の向上。
Vision‑Language‑Action (VLA) モデル: マルチモーダル LLM をロボティクスにおける行動予測のバックボーンとして活用。
統一表現: 知覚と生成の両方に効果的に機能する単一表現の探索。現在の VAE（生成用）と連続エンコーダ（理解用）の分割を超える可能性があります。

Stanford CS25: Transformers United V6 - 言語モデルからネイティブマルチモーダルインテリジェンスへ

Stanford CS25: Transformers United V6 - 言語モデルからネイティブマルチモーダルインテリジェンスへ

ネイティブマルチモーダルインテリジェンス：LLM からのシフト

マルチモーダルモデルのアーキテクチャパラダイム

トークナイズと離散表現

自己回帰と拡散の統合

スケーリングと効率性：Mixture of Transformers (MoT)

MoT の仕組み

MoT 実験からの主な知見

理解と生成の関係性

「次フレーム予測」パズル

マルチモーダル AI の今後の方向性

Sources