HunyuanVideo:一種具有混合雙流轉單流 Transformer 架構的大規模開源影片基礎模型
HunyuanVideo:一種具有混合雙流轉單流 Transformer 架構的大規模開源影片基礎模型
它解決了什麼問題
HunyuanVideo 是一個旨在彌合開源與閉源影片生成之間差距的大規模開源影片基礎模型。它解決了在創建具有強大運動多樣性、精確的文本-影片對齊以及生成穩定性的高品質影片時所面臨的挑戰,旨在達到或超越領先的專有模型性能。
它是如何運作的
該模型在空間-時間壓縮的潛在空間(latent space)上運行,使用 Causal 3D VAE。它採用了「雙流轉單流」的混合 Transformer 架構:首先獨立處理影片和文本 token,(雙流)然後將它們拼接起來進行多模態融合(單流)。對於文本編碼,它使用預訓練的 Decoder-Only Multimodal Large Language Model (MLLM) 並結合雙向 token 精煉器來提高指令遵循能力和細節描述。此外,還使用微調後的 Hunyuan-Large 模型將用戶提示詞(prompts)重寫為模型更偏好的格式,以獲得更好的視覺品質和意圖理解。
對象是誰
需要高性能、開源文本轉影片生成工具,且能夠生成專業級視覺和運動品質的 AI 研究人員、開發人員和創作者。
重點亮點
- 大規模:擁有超過 130 億個參數的最大型開源影片生成模型之一。
- 統一架構:使用混合 Transformer 設計來處理圖像和影片生成。
- 進階文本編碼:利用 MLLM 而非標準的 CLIP/T5 編碼器,以實現卓越的推理和對齊能力。
- 高效壓縮:採用 3D VAE 來減少 token 數量,從而能夠在原始解析度和幀率下進行訓練。
- 靈活的推理:支持單 GPU、多 GPU 並行推理(透過 xDiT)以及 FP8 量化以減少記憶體開銷。
Sources
- undefinedTencent-Hunyuan/HunyuanVideo