HunyuanVideo-1.5: 一款用於消費級 GPU 高品質合成的輕量化 8.3B 參數影片生成模型

它解決了什麼問題

HunyuanVideo-1.5 是一款輕量化影片生成模型，旨在提供高品質的影片合成，同時降低開發者與創作者的計算門檻。它能夠在消費級 GPU 上生成專業級影片，解決了在不需要龐大工業級硬體的情況下，對高效、高解析度影片創作的需求。

運作原理

該專案利用 83 億參數的 Diffusion Transformer (DiT) 並結合 3D causal VAE 進行高效的空間與時間壓縮。它採用了 Selective and Sliding Tile Attention (SSTA) 機制來修剪冗餘數據並加速推理。為了進一步提升品質，它包含了一個影片超解析度 (VSR) 網路，可將輸出提升至 1080p。該模型支援文字轉影片 (T2V) 與圖片轉影片 (I2V) 生成，並可透過 step-distillation 進一步優化以獲得更快的生成速度。

目標對象

它適用於希望使用易於取得的硬體（最低 14GB GPU 記憶體）生成高品質影片的開發者、AI 研究人員與數位創作者，以及那些尋求透過 ComfyUI 或 Diffusers 等工具將影片生成整合到自己應用程式中的使用者。

重點亮點

消費級可及性：透過模型卸載 (model offloading)，可在僅有 14GB VRAM 的 NVIDIA GPU 上執行。
高效能架構：使用 SSTA 在 720p 影片合成中實現顯著的加速。
靈活的生成方式：支援各種解析度下的 Text-to-Video 與 Image-to-Video 工作流。
進階優化：包含對 FP8 GEMM、快取推理 (DeepCache, TeaCache, TaylorCache) 以及用於快速生成的 step-distilled models 的支援。
超解析度：整合了少步數網路 (few-step network) 以將影片提升至 1080p，從而改善銳利度與紋理。",

HunyuanVideo-1.5: 一款用於消費級 GPU 高品質合成的輕量化 8.3B 參數影片生成模型

HunyuanVideo-1.5: 一款用於消費級 GPU 高品質合成的輕量化 8.3B 參數影片生成模型

它解決了什麼問題

運作原理

目標對象

重點亮點

Sources