LTX-2: 동기화된 사운드와 프로덕션급 제어를 제공하는 DiT 기반 오디오-비디오 파운데이션 모델

해결하는 문제

LTX-2는 다양한 비디오 생성 기능을 하나의 시스템으로 통합하도록 설계된 파운데이션 모델입니다. 동기화된 오디오, 정밀한 카메라 제어, 그리고 립 더빙(lip dubbing)이나 지역 재생성(regional regeneration)과 같은 복잡한 편집을 수행할 수 있는 고충실도(high-fidelity)의 프로덕션급 비디오 출력을 필요로 하는 요구사항을 해결합니다.

작동 방식

Diffusion Transformer (DiT) 아키텍처를 기반으로 구축된 LTX-2는 비디오 생성을 위해 멀티 스테이지 파이프라인을 사용합니다. text-to-video 및 image-to-video를 포함한 다양한 생성 모드를 지원하며, 특정 제어(카메라 움직임, 포즈 또는 HDR 출력 등)를 위한 LoRA를 통해 기능을 강화할 수 있습니다. 이 시스템은 해상도와 프레임 레이트를 높이기 위한 공간 및 시간적 업스케일러(spatial and temporal upscalers)를 포함하며, 프롬프트 처리를 위해 Gemma 3 텍스트 인코더를 활용합니다.

대상 사용자

이 프로젝트는 움직임, 오디오 및 시각적 품질에 대한 미세한 제어 기능이 필요한 AI 연구원, 비디오 프로듀서 및 개발자를 대상으로 합니다.

주요 특징

통합된 기능: 동기화된 오디오-비디오 생성, text-to-video, image-to-video를 하나의 모델에서 결합합니다.
다양한 파이프라인: 키프레임 보간(keyframe interpolation), audio-to-video (A2Vid), 립 더빙, HDR 출력을 위한 전문화된 파이프라인을 제공합니다.
다양한 제어: 카메라 제어(dolly, jib, static) 및 모션 트래킹을 위한 광범위한 LoRA를 제공합니다.
가벼운 추론: 훨씬 적은 단계로 더 빠른 생성을 가능하게 하는 모델의 증류(distilled) 버전을 포함합니다.
최적화: 최신 GPU에서 고성능 추론을 위해 FP8 양자화 및 FlashAttention 4를 지원합니다.

LTX-2: 동기화된 사운드와 프로덕션급 제어를 제공하는 DiT 기반 오디오-비디오 파운데이션 모델

LTX-2: 동기화된 사운드와 프로덕션급 제어를 제공하는 DiT 기반 오디오-비디오 파운데이션 모델

해결하는 문제

작동 방식

대상 사용자

주요 특징

Sources