HunyuanVideo-1.5: 一个适用于消费级 GPU 进行高质量合成的 8.3B 参数轻量级视频生成模型

它解决了什么问题

HunyuanVideo-1.5 是一个轻量级视频生成模型，旨在提供高质量的视频合成，同时降低开发者和创作者的计算门槛。它能够在消费级 GPU 上生成专业级视频，解决了在不需要大规模工业级硬件的情况下，对高效、高分辨率视频创作的需求。

工作原理

该项目利用 83 亿参数的 Diffusion Transformer (DiT) 结合 3D causal VAE 进行高效的空间和时间压缩。它采用了 Selective and Sliding Tile Attention (SSTA) 机制来修剪冗余数据并加速推理。为了进一步提升质量，它包含一个视频超分辨率 (VSR) 网络，可将输出提升至 1080p。该模型支持文本到视频 (T2V) 和图像到视频 (I2V) 生成，并可以通过使用 step-distillation 进行进一步优化，以实现更快的生成速度。

适用人群

它适用于希望使用易于获取的硬件（至少 14GB GPU 显存）生成高质量视频的开发者、AI 研究人员和数字创作者，以及那些希望通过 ComfyUI 或 Diffusers 等工具将视频生成集成到自己应用中的用户。

亮点

消费级易用性：通过使用 model offloading，可以在显存仅为 14GB 的 NVIDIA GPU 上运行。
高性能架构：使用 SSTA 在 720p 视频合成中实现显著加速。
灵活的生成：支持多种分辨率下的 Text-to-Video 和 Image-to-Video 工作流。
高级优化：包括对 FP8 GEMM、cache inference (DeepCache, TeaCache, TaylorCache) 以及用于快速生成的 step-distilled models 的支持。
超分辨率：集成了 few-step 网络，可将视频提升至 1080p，以获得更好的清晰度和纹理。

HunyuanVideo-1.5: 一个适用于消费级 GPU 进行高质量合成的 8.3B 参数轻量级视频生成模型

HunyuanVideo-1.5: 一个适用于消费级 GPU 进行高质量合成的 8.3B 参数轻量级视频生成模型

它解决了什么问题

工作原理

适用人群

亮点

Sources