HunyuanVideo-1.5: 一款用於消費級 GPU 高品質合成的輕量化 8.3B 參數影片生成模型

HunyuanVideo-1.5: 一款用於消費級 GPU 高品質合成的輕量化 8.3B 參數影片生成模型

它解決了什麼問題

HunyuanVideo-1.5 是一款輕量化影片生成模型,旨在提供高品質的影片合成,同時降低開發者與創作者的計算門檻。它能夠在消費級 GPU 上生成專業級影片,解決了在不需要龐大工業級硬體的情況下,對高效、高解析度影片創作的需求。

運作原理

該專案利用 83 億參數的 Diffusion Transformer (DiT) 並結合 3D causal VAE 進行高效的空間與時間壓縮。它採用了 Selective and Sliding Tile Attention (SSTA) 機制來修剪冗餘數據並加速推理。為了進一步提升品質,它包含了一個影片超解析度 (VSR) 網路,可將輸出提升至 1080p。該模型支援文字轉影片 (T2V) 與圖片轉影片 (I2V) 生成,並可透過 step-distillation 進一步優化以獲得更快的生成速度。

目標對象

它適用於希望使用易於取得的硬體(最低 14GB GPU 記憶體)生成高品質影片的開發者、AI 研究人員與數位創作者,以及那些尋求透過 ComfyUI 或 Diffusers 等工具將影片生成整合到自己應用程式中的使用者。

重點亮點

  • 消費級可及性:透過模型卸載 (model offloading),可在僅有 14GB VRAM 的 NVIDIA GPU 上執行。
  • 高效能架構:使用 SSTA 在 720p 影片合成中實現顯著的加速。
  • 靈活的生成方式:支援各種解析度下的 Text-to-Video 與 Image-to-Video 工作流。
  • 進階優化:包含對 FP8 GEMM、快取推理 (DeepCache, TeaCache, TaylorCache) 以及用於快速生成的 step-distilled models 的支援。
  • 超解析度:整合了少步數網路 (few-step network) 以將影片提升至 1080p,從而改善銳利度與紋理。",

Sources