HunyuanVideo-1.5: 一个适用于消费级 GPU 进行高质量合成的 8.3B 参数轻量级视频生成模型

HunyuanVideo-1.5: 一个适用于消费级 GPU 进行高质量合成的 8.3B 参数轻量级视频生成模型

它解决了什么问题

HunyuanVideo-1.5 是一个轻量级视频生成模型,旨在提供高质量的视频合成,同时降低开发者和创作者的计算门槛。它能够在消费级 GPU 上生成专业级视频,解决了在不需要大规模工业级硬件的情况下,对高效、高分辨率视频创作的需求。

工作原理

该项目利用 83 亿参数的 Diffusion Transformer (DiT) 结合 3D causal VAE 进行高效的空间和时间压缩。它采用了 Selective and Sliding Tile Attention (SSTA) 机制来修剪冗余数据并加速推理。为了进一步提升质量,它包含一个视频超分辨率 (VSR) 网络,可将输出提升至 1080p。该模型支持文本到视频 (T2V) 和图像到视频 (I2V) 生成,并可以通过使用 step-distillation 进行进一步优化,以实现更快的生成速度。

适用人群

它适用于希望使用易于获取的硬件(至少 14GB GPU 显存)生成高质量视频的开发者、AI 研究人员和数字创作者,以及那些希望通过 ComfyUI 或 Diffusers 等工具将视频生成集成到自己应用中的用户。

亮点

  • 消费级易用性:通过使用 model offloading,可以在显存仅为 14GB 的 NVIDIA GPU 上运行。
  • 高性能架构:使用 SSTA 在 720p 视频合成中实现显著加速。
  • 灵活的生成:支持多种分辨率下的 Text-to-Video 和 Image-to-Video 工作流。
  • 高级优化:包括对 FP8 GEMM、cache inference (DeepCache, TeaCache, TaylorCache) 以及用于快速生成的 step-distilled models 的支持。
  • 超分辨率:集成了 few-step 网络,可将视频提升至 1080p,以获得更好的清晰度和纹理。

Sources