FastVideo: 가속화된 비디오 생성을 위한 통합 사후 학습 및 실시간 추론 프레임워크

FastVideo: 가속화된 비디오 생성을 위한 통합 사후 학습 및 실시간 추론 프레임워크

해결하는 문제

FastVideo는 최첨단 비디오 생성 모델과 관련된 높은 계산 비용 및 느린 생성 속도 문제를 해결합니다. 비디오 Diffusion Transformers (DiTs)의 사후 학습(미세 조정 및 증류)과 실시간 추론 모두를 가속화하기 위한 통합 프레임워크를 제공합니다.

작동 방식

FastVideo는 지연 시간을 줄이고 처리량을 높이기 위해 여러 최적화 기술을 사용합니다:

  • 사후 학습 최적화: 전체 및 LoRA 미세 조정을 지원하며, Distribution Matching Distillation (DMD2) 및 희소 증류(sparse distillation)를 통해 상당한 디노이징 속도 향상(50배 이상)을 달성합니다.
  • 어텐션 메커니즘: 비디오 프레임 처리의 복잡성을 줄이기 위해 Video Sparse Attention (VSA) 및 Sliding Tile Attention을 포함한 특화된 어텐션 백엔드를 구현합니다.
  • 추론 스케일링: 이 프레임워크는 여러 GPU에 걸친 분산 추론을 위해 시퀀스 병렬성(sequence parallelism)을 활용하며, 다양한 하드웨어 (H100, A100, 4090) 및 운영 체제를 지원합니다.
  • 실시간 스트리밍: Dreamverse 플랫폼을 통해 "vibe directing"을 가능하게 하여 사용자가 실시간으로 비디오를 스트리밍하고 편집할 수 있도록 합니다.

대상 사용자

이 프레임워크는 추론 지연 시간을 줄이거나 특화된 비디오 모델을 학습/증류해야 하는 고성능 비디오 생성 애플리케이션을 구축하는 AI 연구원 및 개발자를 위해 설계되었습니다.

주요 특징

  • 대규모 속도 향상: FastWan-QAD를 사용하여 엔드 투 엔드 방식으로 5초 분량의 비디오를 1.8초 만에 생성할 수 있습니다.
  • 포괄적인 툴링: 비디오, 이미지, 텍스트를 위한 전체 데이터 전처리 파이프라인을 포함합니다.
  • 확장 가능한 학습: FSDP2, 시퀀스 병렬성, 그리고 선택적 활성화 체크포인팅(selective activation checkpointing)을 지원합니다.
  • 실시간 인터페이스: 실시간 비디오 생성 및 편집을 위한 웹 UI인 Dreamverse를 포함합니다.

Sources