MAGI-1: 強力な物理的正確性を備えたスケーラブルで高忠実度なビデオ生成のための自己回帰型ワールドモデル

MAGI-1: 強力な物理的正確性を備えたスケーラブルで高忠実度なビデオ生成のための自己回帰型ワールドモデル

何を解決するか

MAGI-1は、強力な時間的一貫性とスケーラビリティを備えた高忠実度ビデオの生成という課題に取り組んでいます。具体的には、従来のビデオ生成モデルが苦戦しがちな、長期間のビデオ合成における物理的正確性とスムーズな遷移の維持という問題を解決します。

仕組み

MAGI-1は、ビデオを単一のブロックとしてではなく、自己回帰的なデノイジングアルゴリズムを使用してチャンクごと（24フレームのセグメント）に生成するワールドモデルです。このアプローチにより、複数のチャンクの並列処理とストリーミング生成が可能になります。

主な技術的構成要素は以下の通りです：

Transformer-based VAE: 高速なデコードのために、8倍の空間圧縮と4倍の時間圧縮を提供します。
Diffusion Transformer (DiT): 学習の安定性と効率を向上させるために、Block-Causal Attention、Parallel Attention Blocks、およびGQAを組み込んでいます。
Shortcut Distillation: 速度ベースの蒸留手法であり、モデルが可変の推論予算をサポートすることを可能にし、品質の低下を最小限に抑えながらより高速な生成を実現します。
Controllable Generation: image-to-video (I2V)、text-to-video (T2V)、およびvideo-to-video (V2V) モードをサポートし、チャンクごとのプロンプト指定によりきめ細かな制御が可能です。

対象者

このプロジェクトは、高品質で物理的に正確なビデオ生成を必要とするAI研究者、開発者、およびクリエイターを対象としています。単一の RTX 4090（4.5Bモデル用）から、マルチH100/H800クラスター（24Bモデル用）までのハードウェアを使用するユーザーに適しています。

ハイライト

Autoregressive Generation: ストリーミングビデオ制作と長期間の合成を可能にします。
Physical Accuracy: 物理的挙動を予測する Physics-IQ ベンチマークにおいて、既存のモデルを凌駕しています。
Scalable Model Zoo: さまざまなサイズ（4.5Bおよび24B）とバージョン（base、distilled、およびquantized）を提供します。
Flexible Control: T2V、I2V、およびV2V 生成モードをサポートします。
Integration: ComfyUI 用のカスタムノードと、Dify DSL を介したプロンプト強化を提供します。

Sources

undefinedSandAI-org/MAGI-1