TurboDiffusion: 확산 지연 시간을 100-200배 줄이는 비디오 생성 가속 프레임워크
TurboDiffusion: 확산 지연 시간을 100-200배 줄이는 비디오 생성 가속 프레임워크
해결하고자 하는 문제
TurboDiffusion은 비디오 확산 모델의 높은 계산 비용과 느린 생성 속도를 해결합니다. 단일 RTX 5090 GPU에서 100배에서 200배까지 속도 향상을 달성하면서 비디오 품질을 유지한다고 주장합니다.
작동 원리
이 프레임워크는 세 가지 주요 기술을 결합하여 가속을 구현합니다:
- Attention 가속: SageAttention과 Sparse-Linear Attention (SLA)를 활용해 어텐션 메커니즘을 최적화합니다.
- Timestep 증류: rCM을 사용해 타임스텝 증류를 수행, 필요한 샘플링 단계 수를 감소시킵니다.
- 양자화: 선형 레이어에 대한 양자화 체크포인트를 제공하여 RTX 4090 및 5090과 같은 소비자용 GPU에서도 효율적으로 실행할 수 있게 합니다.
대상 사용자
이 프로젝트는 비디오 생성 모델(특히 Wan 시리즈)으로 작업하는 개발자와 연구자를 위한 것으로, 몇 분이나 몇 시간 대신 몇 초 안에 고품질 비디오(480p 또는 720p)를 생성해야 하는 경우에 적합합니다.
주요 특징
- 엄청난 속도 향상: 특정 모델의 경우 RTX 5090에서 생성 시간이 184초에서 1.9초로 감소합니다.
- SLA 지원: SageAttention 기반의 빠른 SLA 전방 패스를 제공하는 SageSLA를 포함합니다.
- 유연한 모달리티: 텍스트‑투‑비디오(T2V)와 이미지‑투‑비디오(I2V) 생성 모두를 지원합니다.
- 하드웨어 최적화: 고성능 데이터센터 GPU(H100)와 소비자용 GPU(RTX 5090/4090) 모두에 대한 구체적인 구성 및 체크포인트를 제공합니다.
요약: TurboDiffusion은 어텐션 최적화와 타임스텝 증류를 활용해 단일 GPU에서 확산 생성 속도를 100-200배 가속하는 비디오 생성 가속 프레임워크입니다.
제목: TurboDiffusion: 확산 지연 시간을 100-200배 줄이는 비디오 생성 가속 프레임워크
Sources
- undefinedthu-ml/TurboDiffusion