HunyuanVideo: ハイブリッドなdual-to-single stream Transformerアーキテクチャを備えた大規模オープンソース動画基盤モデル

何を解決するか

HunyuanVideoは、オープンソースとクローズドソースの動画生成の間のギャップを埋めるために設計された、大規模なオープンソース動画基盤モデルです。強力な動きの多様性、正確なテキストと動画の整合性、および生成の安定性を備えた高品質な動画を作成するという課題に取り組み、、主要なプロプライエタリモデルの性能に匹敵、あるいはそれを上回ることを目指しています。

仕組み

このモデルは、Causal 3D VAEを使用して、時空間的に圧縮された潜在空間上で動作します。「Dual-stream to Single-stream」ハイブリッドTransformerアーキテクチャを採用しています。まず、動画とテキストのトークンを独立して処理し（dual-stream）、次にそれらを結合してマルチモーダル融合（single-stream）を行います。テキストエンコーディングには、指示への追従性と詳細な記述を向上させるために、事前学習済みのDecoder-Only Multimodal Large Language Model (MLLM)と双方向トークンリファイナーを組み合わせて使用します。さらに、微調整されたHunyuan-Largeモデルを使用して、ユーザーのプロンプトをモデルが好む形式に書き換え、視覚的な品質と意図の理解を向上させます。

対象者

プロフェッショナル級の視覚的および動きの品質を生成できる、高性能なオープンソースのtext-to-video生成ツールを必要とするAI研究者、開発者、およびクリエイター。

ハイライト

Massive Scale: 130億以上のパラメータを持つ、最大級のオープンソース動画生成モデルの一つ。
Unified Architecture: 画像と動画の両方の生成を扱うために、ハイブリッドTransformer設計を使用。
Advanced Text Encoding: 優れた推論と整合性のために、標準的なCLIP/T5エンコーダーの代わりにMLLMを活用。
Efficient Compression: 3D VAEを採用してトークン数を削減し、元の解像度とフレームレートでのトレーニングを可能にする。
Flexible Inference: single-GPU、multi-GPU並列推論（xDiT経由）、およびメモリオーバーヘッドを削減するためのFP8量子化をサポート。

HunyuanVideo: ハイブリッドなdual-to-single stream Transformerアーキテクチャを備えた大規模オープンソース動画基盤モデル

HunyuanVideo: ハイブリッドなdual-to-single stream Transformerアーキテクチャを備えた大規模オープンソース動画基盤モデル

何を解決するか

仕組み

対象者

ハイライト

Sources