HunyuanVideo-1.5: コンシューマー向けGPUで高品質な合成を実現する軽量8.3Bパラメータ動画生成モデル

HunyuanVideo-1.5: コンシューマー向けGPUで高品質な合成を実現する軽量8.3Bパラメータ動画生成モデル

解決する課題

HunyuanVideo-1.5は、開発者やクリエイターの計算リソースの障壁を下げつつ、高品質な動画合成を提供するために設計された軽量な動画生成モデルです。大規模な産業用ハードウェアを必要とせずに、コンシューマー向けGPUでプロフェッショナルグレードの動画生成を可能にし、効率的で高解像度な動画作成のニーズに応えます。

仕組み

このプロジェクトは、83億パラメータのDiffusion Transformer (DiT) と、効率的な空間・時間圧縮のための3D causal VAEを組み合わせて利用しています。冗長なデータを削減し推論を加速させるために、Selective and Sliding Tile Attention (SSTA) メカニズムを採用しています。品質をさらに向上させるために、出力を1080pにアップスケールするビデオ超解像 (VSR) ネットワークが含まれています。このモデルは、text-to-video (T2V) と image-to-video (I2V) の両方の生成をサポートしており、step-distillation を使用して生成速度をさらに最適化できます。

対象ユーザー

アクセシブルなハードウェア(最小14GBのGPUメモリ)を使用して高品質な動画を生成したい開発者、AI研究者、デジタルクリエイター、および ComfyUI や Diffusers などのツールを介して動画生成を自身のアプリケーションに統合したいと考えている人々を対象としています。

ハイライト

  • コンシューマー向けアクセシビリティ: モデルオフローディングを使用することで、VRAMがわずか14GBのNVIDIA GPU上で動作します。
  • 高性能アーキテクチャ: SSTAを使用して、720p動画合成において大幅なスピードアップを実現します。
  • 柔軟な生成: さまざまな解像度で Text-to-Video と Image-to-Video のワークフローを両方サポートします。
  • 高度な最適化: FP8 GEMM、キャッシュ推論 (DeepCache, TeaCache, TaylorCache)、および高速生成のための step-distilled モデルのサポートが含まれます。
  • 超解像: 鮮明さとテクスチャを向上させるために、動画を1080pにアップスケールする統合された few-step ネットワークを備えています。

Sources