HunyuanVideo-1.5: 소비자용 GPU에서 고품질 합성을 위한 경량 8.3B 파라미터 비디오 생성 모델

HunyuanVideo-1.5: 소비자용 GPU에서 고품질 합성을 위한 경량 8.3B 파라미터 비디오 생성 모델

해결하는 문제

HunyuanVideo-1.5는 개발자와 크리에이터를 위한 계산 장벽을 낮추는 동시에 고품질 비디오 합성을 제공하도록 설계된 경량 비디오 생성 모델입니다. 이는 대규모 산업용 하드웨어가 필요하지 않은 효율적이고 고해상도 비디오 제작에 대한 요구를 해결하며, 소비자용 GPU에서 전문가급 비디오 생성을 가능하게 합니다.

작동 방식

이 프로젝트는 효율적인 공간 및 시간 압축을 위해 83억 개의 파라미터를 가진 Diffusion Transformer (DiT)와 3D causal VAE를 결합하여 활용합니다. 중복된 데이터를 제거하고 추론을 가속화하기 위해 Selective and Sliding Tile Attention (SSTA) 메커니즘을 채택했습니다. 품질을 더욱 향상시키기 위해 출력을 1080p로 업스케일링하는 비디오 초해상도 (VSR) 네트워크를 포함합니다. 이 모델은 text-to-video (T2V) 및 image-to-video (I2V) 생성을 모두 지원하며, step-distillation을 사용하여 생성 속도를 더욱 최적화할 수 있습니다.

대상 사용자

접근 가능한 하드웨어(최소 14GB GPU 메모리)를 사용하여 고품질 비디오를 생성하고자 하는 개발자, AI 연구자, 디지털 크리에이터, 그리고 ComfyUI 또는 Diffusers와 같은 도구를 통해 비디오 생성을 자신의 애플리케이션에 통합하려는 사람들을 대상으로 합니다.

주요 특징

  • 소비자용 접근성: 모델 오프로딩을 사용하여 VRAM이 14GB인 NVIDIA GPU에서도 실행 가능합니다.
  • 고성능 아키텍처: SSTA를 사용하여 720p 비디오 합성에서 상당한 속도 향상을 달성합니다.
  • 유연한 생성: 다양한 해상도에 걸쳐 Text-to-Video 및 Image-to-Video 워크플로우를 모두 지원합니다.
  • 고급 최적화: FP8 GEMM, 캐시 추론 (DeepCache, TeaCache, TaylorCache), 그리고 빠른 생성을 위한 step-distilled 모델에 대한 지원을 포함합니다.
  • 초해상도: 향상된 선명도와 질감을 위해 비디오를 1080p로 업스케일링하는 통합된 few-step 네트워크를 포함합니다.

Sources