HunyuanVideo：一种采用混合双流转单流 Transformer 架构的大规模开源视频基础模型

解决的问题

HunyuanVideo 是一个大规模开源视频基础模型，旨在弥合开源与闭源视频生成之间的差距。它解决了创建高质量视频时的运动多样性强、文本‑视频对齐精准以及生成稳定性等挑战，目标是匹配或超越领先的专有模型的表现。

工作原理

该模型使用因果 3D VAE 在空间‑时间压缩的潜在空间上运行。它采用“双流转单流”混合 Transformer 架构：首先分别处理视频和文本 token（双流），随后将它们拼接进行多模态融合（单流）。文本编码方面，使用预训练的仅解码器多模态大语言模型（MLLM）并结合双向 token 精炼器，以提升指令遵循和细节描述能力。此外，还使用微调后的 Hunyuan‑Large 模型将用户提示改写为模型更偏好的格式，从而获得更好的视觉质量和意图理解。

适用人群

AI 研究者、开发者以及创作者，需使用高性能、开源的文本到视频生成工具，以产出专业级的视觉和运动质量。

亮点

规模宏大：是最大的开源视频生成模型之一，参数量超过 130 亿。
统一架构：采用混合 Transformer 设计，兼顾图像和视频生成。
先进的文本编码：使用 MLLM 替代传统的 CLIP/T5 编码器，实现更强的推理和对齐能力。
高效压缩：利用 3D VAE 降低 token 数量，使得能够在原始分辨率和帧率下进行训练。
灵活推理：支持单 GPU、通过 xDiT 的多 GPU 并行推理，以及 FP8 量化以降低显存开销。

HunyuanVideo：一种采用混合双流转单流 Transformer 架构的大规模开源视频基础模型

HunyuanVideo：一种采用混合双流转单流 Transformer 架构的大规模开源视频基础模型

解决的问题

工作原理

适用人群

亮点

Sources