MAGI-1: 강력한 물리적 정확성을 갖춘 확장 가능한 고충실도 비디오 생성을 위한 자기회귀 월드 모델

MAGI-1: 강력한 물리적 정확성을 갖춘 확장 가능한 고충실도 비디오 생성을 위한 자기회귀 월드 모델

해결하는 문제

MAGI-1은 강력한 시간적 일관성과 확장성을 갖춘 고충실도 비디오 생성의 과제를 해결합니다. 특히 전통적인 비디오 생성 모델이 어려움을 겪는 긴 호흡의 비디오 합성 과정에서 물리적 정확성과 매끄러운 전환을 유지하는 문제를 해결합니다.

작동 방식

MAGI-1은 단일 블록이 아닌 자기회귀 디노이징 알고리즘을 사용하여 비디오를 청크 단위(24프레임 세그먼트)로 생성하는 월드 모델입니다. 이 접근 방식은 여러 청크의 동시 처리와 스트리밍 생성을 가능적으로 합니다.

주요 기술 구성 요소는 다음과 같습니다:

Transformer-based VAE: 빠른 디코딩을 위해 8배의 공간적 압축과 4배의 시간적 압축을 제공합니다.
Diffusion Transformer (DiT): 훈련 안정성과 효율성을 개선하기 위해 Block-Causal Attention, Parallel Attention Blocks, GQA를 통합합니다.
Shortcut Distillation: 속도 기반 증류 방법으로, 모델이 가변적인 추론 예산을 지원할 수 있게 하여 품질 저하를 최소화하면서 더 빠른 생성을 가능하게 합니다.
Controllable Generation: 이미지-투-비디오(I2V), 텍스트-투-비디오(T2V), 비디오-투-비디오(V2V) 모드를 지원하며, 청크 단위 프롬프팅을 통해 세밀한 제어를 제공합니다.

대상 사용자

이 프로젝트는 고품질의 물리적으로 정확한 비디오 생성이 필요한 AI 연구자, 개발자 및 크리에이터를 위한 것입니다. 단일 RTX 4090(4.5B 모델용)부터 멀티-H100/H800 클러스터(24B 모델용)까지의 하드웨어를 사용하는 사용자에게 적합합니다.

주요 특징

Autoregressive Generation: 스트리밍 비디오 제작 및 긴 호흡의 합성을 가능하게 합니다.
Physical Accuracy: 물리적 행동을 예측하는 Physics-IQ 벤치마크에서 기존 모델보다 뛰어난 성능을 보여줍니다.
Scalable Model Zoo: 다양한 크기(4.5B 및 24B)와 버전(base, distilled, quantized)을 제공합니다.
Flexible Control: T2V, I2V, V2V 생성 모드를 지원합니다.
Integration: ComfyUI를 위한 커스텀 노드를 제공하며, Dify DSL을 통해 프롬프트 강화를 지원합니다.

Sources

undefinedSandAI-org/MAGI-1