HunyuanVideo: hybrid dual-to-single stream Transformer architecture를 갖춘 대규모 오픈소스 비디오 파운데이션 모델

HunyuanVideo: hybrid dual-to-single stream Transformer architecture를 갖춘 대규모 오픈소스 비디오 파운데이션 모델

해결하는 문제

HunyuanVideo는 오픈소스와 폐쇄형 소스 비디오 생성 간의 격차를 줄이기 위해 설계된 대규모 오픈소스 비디오 파운데이션 모델입니다. 강력한 움직임의 다양성, 정밀한 텍스트-비디오 정렬, 그리고 생성 안정성을 갖춘 고품질 비디오를 제작하는 과제를 해결하며, 선도적인 독점 모델의 성능에 필적하거나 이를 능가하는 것을 목표로 합니다.

작동 방식

이 모델은 Causal 3D VAE를 사용하여 시공간적으로 압축된 잠재 공간(latent space)에서 작동합니다. "Dual-stream to Single-stream" 하이브리드 Transformer 아키텍처를 채택하여, 먼저 비디오와 텍스트 토큰을 독립적으로 처리(dual-stream)한 다음 멀티모달 융합을 위해 이들을 결합(single-stream)합니다. 텍스트 인코딩을 위해 사전 학습된 Decoder-Only Multimodal Large Language Model (MLLM)과 양방향 토큰 정제기(bidirectional token refiner)를 결합하여 지시 사항 준수 및 세부 묘사 능력을 향상시켰습니다. 또한, 미세 조정된 Hunyuan-Large 모델을 사용하여 사용자의 프롬프트를 모델이 선호하는 형식으로 재작성하여 시각적 품질과 의도 이해도를 높입니다.

대상 사용자

전문가 수준의 시각 및 움직임 품질을 생성할 수 있는 고성능 오픈소스 텍스트-비디오 생성 도구가 필요한 AI 연구원, 개발자 및 크리에이터.

주요 특징

  • Massive Scale: 130억 개 이상의 파라미터를 보유한 가장 큰 오픈소스 비디오 생성 모델 중 하나입니다.
  • Unified Architecture: 이미지와 비디오 생성을 모두 처리할 수 있는 하이브리드 Transformer 설계를 사용합니다.
  • Advanced Text Encoding: 표준 CLIP/T5 인코더 대신 MLLM을 활용하여 우수한 추론 및 정렬 능력을 제공합니다.
  • Efficient Compression: 3D VAE를 사용하여 토큰 수를 줄임으로써, 원래 해상도와 프레임 레이트에서 학습이 가능하도록 합니다.
  • Flexible Inference: 단일 GPU, 멀티 GPU 병렬 추론(xDiT를 통해) 및 메모리 오버헤드를 줄이기 위한 FP8 양자화를 지원합니다.

Sources