HunyuanVideo:一种采用混合双流转单流 Transformer 架构的大规模开源视频基础模型

HunyuanVideo:一种采用混合双流转单流 Transformer 架构的大规模开源视频基础模型

解决的问题

HunyuanVideo 是一个大规模开源视频基础模型,旨在弥合开源与闭源视频生成之间的差距。它解决了创建高质量视频时的运动多样性强、文本‑视频对齐精准以及生成稳定性等挑战,目标是匹配或超越领先的专有模型的表现。

工作原理

该模型使用因果 3D VAE 在空间‑时间压缩的潜在空间上运行。它采用“双流转单流”混合 Transformer 架构:首先分别处理视频和文本 token(双流),随后将它们拼接进行多模态融合(单流)。文本编码方面,使用预训练的仅解码器多模态大语言模型(MLLM)并结合双向 token 精炼器,以提升指令遵循和细节描述能力。此外,还使用微调后的 Hunyuan‑Large 模型将用户提示改写为模型更偏好的格式,从而获得更好的视觉质量和意图理解。

适用人群

AI 研究者、开发者以及创作者,需使用高性能、开源的文本到视频生成工具,以产出专业级的视觉和运动质量。

亮点

  • 规模宏大:是最大的开源视频生成模型之一,参数量超过 130 亿。
  • 统一架构:采用混合 Transformer 设计,兼顾图像和视频生成。
  • 先进的文本编码:使用 MLLM 替代传统的 CLIP/T5 编码器,实现更强的推理和对齐能力。
  • 高效压缩:利用 3D VAE 降低 token 数量,使得能够在原始分辨率和帧率下进行训练。
  • 灵活推理:支持单 GPU、通过 xDiT 的多 GPU 并行推理,以及 FP8 量化以降低显存开销。

Sources