Stanford CS25: Transformers United V6 - 언어 모델에서 네이티브 멀티모달 인텔리전스로

네이티브 멀티모달 인텔리전스: LLM에서의 전환

네이티브 멀티모달 인텔리전스는 하나의 아키텍처 안에서 기호 지식과 멀티모달 정보(이미지, 오디오, 비디오)를 원활히 처리하는 AI 시스템을 구축하는 것을 목표로 합니다. 대형 언어 모델(LLM)은 기호 정보를 대상으로 다음 토큰 예측을 통해 돌파구를 마련했지만, 물리적 세계와 상호작용하기에는 충분하지 않습니다. 물리적 세계는 본질적으로 멀티모달이기 때문입니다.

현대의 네이티브 멀티모달 모델은 모든 모달리티에 대해 토큰화를 수행함으로써 LLM 패러다임을 확장합니다. 이미지의 경우 패치화(patchification)를, 오디오의 경우 파형 변환을 통해 비텍스트 신호를 토큰으로 변환하면, 이러한 모델은 표준 언어 모델과 유사한 전역 자동회귀 생성 모델링으로 학습될 수 있습니다.

멀티모달 모델을 위한 아키텍처 패러다임

멀티모달 모델은 일반적으로 출력 능력에 따라 두 가지 범주로 나뉩니다:

멀티모달 입력, 텍스트 출력: 이 모델들은 멀티모달 시퀀스를 조건으로 삼지만 손실은 텍스트 토큰에만 계산합니다. Gemini, Qwen, Kimi와 같은 모델이 이 방식을 사용해 고수준 이해와 질의응답을 가능하게 합니다.
Omni 모델: 멀티모달 입력을 받아 텍스트, 이미지, 오디오 등 멀티모달 출력을 생성합니다. 예시로 GPT-4o가 있습니다.

토큰화와 이산 표현

Chameleon 계열 모델은 모든 모달리티를 이산 토큰으로 변환할 수 있다는 가설을 테스트합니다. 이미지의 경우 이미지를 "패치화"하고 연속 인코더를 거친 뒤, 학습된 벡터 코드북에 임베딩을 매핑합니다(VQ‑VAE 기법 사용). 이를 통해 모델은 임의 순서로 텍스트와 이미지를 교차 생성할 수 있습니다.

하지만 이산 토큰화에는 두 가지 주요 제한이 있습니다:

정보 손실: 이산화는 SigLIP과 같은 연속 인코딩에 비해 이미지 이해 작업에서 상당한 손실을 초래합니다.
토큰 비효율성: 이러한 모델은 형태가 잘 잡힌 이미지를 샘플링하기 위해 방대한 양의 데이터가 필요합니다.

자동회귀와 확산의 통합

Transfusion은 이산 토큰의 한계를 극복하기 위해 자동회귀 언어 모델링과 확산 기반 이미지 생성을 하나의 트랜스포머 안에서 결합합니다. 텍스트는 표준 자동회귀 예측을 따르고, 이미지 조각은 확산 연산을 통해 처리됩니다.

Transfusion의 주요 아키텍처 차이점은 다음과 같습니다:

인과적 어텐션(Causal Attention): 텍스트에 사용됩니다.
양방향 어텐션(Bidirectional Attention): 이미지에 사용되어 성능을 향상시킵니다.

우수한 이미지 품질과 토큰 효율성을 제공하지만, 생성에 효율적인 VAE 표현이 이미지 이해에는 동일하게 효율적이지 않다는 "딜레마"에 직면합니다.

확장성과 효율성: Mixture of Transformers (MoT)

다양한 모달리티는 서로 다른 정보 밀도를 가지고 있기 때문에, 모든 데이터를 위해 통합된 트랜스포머 파라미터를 사용하는 것은 비효율적일 수 있습니다. Mixture of Transformers (MoT) 아키텍처는 어텐션 레이어와 피드포워드 레이어의 투영 행렬에 모달리티별 파라미터를 도입합니다.

MoT 작동 방식

MoT는 결정적 라우팅을 사용합니다: 토큰이 텍스트이면 텍스트 전용 파라미터가 활성화되고, 이미지 토큰이면 이미지 전용 파라미터가 사용됩니다. 별도의 QKV 투영 후, 공동 어텐션 메커니즘이 모달리티를 통합하고, 이어서 모달리티별 피드포워드 처리가 이루어집니다.

MoT 실험의 주요 결과

비텍스트 생성: MoT는 텍스트 성능을 희생하지 않으면서 이미지와 음성 생성 능력을 크게 향상시킵니다.
용량 경쟁 방지: 별도 파라미터는 서로 근본적으로 다른 데이터 유형을 단일 트랜스포머가 처리하려 할 때 발생하는 "용량 경쟁"을 방지합니다.
비동기 학습: MoT는 기존 텍스트 모델에 새로운 모달리티 파라미터를 추가하고 텍스트 모델을 고정함으로써 전체 파인튜닝 없이도 확장이 가능하게 합니다.

이해와 생성 사이의 관계

Omni 모델에 대한 연구는 이해와 생성 사이에 비대칭적인 관계가 있음을 보여줍니다:

이해 → 생성: 기본 모델의 이해 능력이 강할수록 생성 품질이 향상되어 인포그래픽에서 세부 사항이 더 정교해지고 환각이 감소합니다.
생성 → 이해: 비텍스트 생성(예: 이미지 생성) 전용으로 모델을 학습시킨다고 해서 이미지 이해 능력이 반드시 향상되는 것은 아닙니다.

"다음 프레임 예측" 퍼즐

언어에 대한 다음 토큰 예측은 효과적이지만, 비디오에 대한 다음 프레임 예측은 아직 동일한 추론 능력을 이끌어내지 못합니다. 가능한 가설은 다음과 같습니다:

추상화: 언어는 인간 인지와 추론을 고도로 압축한 추상화인 반면, 이미지·비디오는 원시 감각 데이터입니다.
손실 지형: 시각 데이터의 손실 지형은 더 복잡하여, 모델의 손실이 감소해도 인간이 보기엔 여전히 품질이 낮은 결과가 나올 수 있습니다.
중복성: 비디오 프레임은 텍스트에 비해 정보 밀도가 낮고 중복된 정보가 많습니다.

멀티모달 AI의 향후 방향

현재 Omni 모델은 디지털 정보 처리에 뛰어나지만, 물리적 세계 지능에는 큰 격차가 존재합니다. 향후 연구는 다음에 초점을 맞춥니다:

시공간 이해: 실시간 이해와 로봇 제어 향상.
Vision‑Language‑Action (VLA) 모델: 멀티모달 LLM을 로봇 행동 예측의 백본으로 활용.
통합 표현: 인식과 생성을 모두 효과적으로 지원하는 단일 표현을 찾는 연구. 이는 현재 VAE(생성)와 연속 인코더(이해) 사이의 분리를 넘어서는 방향이 될 수 있습니다.

요약: Victoria Lin은 네이티브 멀티모달 언어 모델의 진화를 논의하며, 모달리티 전반에 걸친 토큰화와 Mixture of Transformers(MoT)와 같은 특화된 아키텍처가 텍스트, 이미지, 오디오를 원활히 통합하도록 어떻게 가능하게 하는지 상세히 설명합니다.

제목: Stanford CS25: Transformers United V6 - 언어 모델에서 네이티브 멀티모달 인텔리전스로

Stanford CS25: Transformers United V6 - 언어 모델에서 네이티브 멀티모달 인텔리전스로

Stanford CS25: Transformers United V6 - 언어 모델에서 네이티브 멀티모달 인텔리전스로

네이티브 멀티모달 인텔리전스: LLM에서의 전환

멀티모달 모델을 위한 아키텍처 패러다임

토큰화와 이산 표현

자동회귀와 확산의 통합

확장성과 효율성: Mixture of Transformers (MoT)

MoT 작동 방식

MoT 실험의 주요 결과

이해와 생성 사이의 관계

"다음 프레임 예측" 퍼즐

멀티모달 AI의 향후 방향

Sources