LTX-2: 基于 DiT 的音视频基础模型,具备同步声音和生产级控制功能
LTX-2: 基于 DiT 的音视频基础模型,具备同步声音和生产级控制功能
它解决了什么问题
LTX-2 是一个旨在将各种视频生成能力统一到一个系统中的基础模型。它解决了对高保真、生产级视频输出的需求,这些输出包括同步音频、精确的摄像机控制,以及执行复杂的编辑操作(如对口型或局部重绘)的能力。
工作原理
LTX-2 基于 Diffusion Transformer (DiT) 架构构建,使用多阶段流水线来生成视频。它支持多种生成模式,包括 text-to-video 和 image-to-video,并可以通过 LoRAs 来增强特定控制(例如摄像机运动、姿态或 HDR 输出)。该系统包含空间和时间放大器以提高分辨率和帧率,并利用 Gemma 3 文本编码器进行提示词处理。
适用人群
该项目适用于 AI 研究人员、视频制作人以及需要对运动、音频和视觉质量进行细粒度控制的专业级视频生成工具的开发者。
亮点
- 统一能力:在一个模型中结合了同步音视频生成、text-to-video 和 image-to-video。
- 多样化流水线:为关键帧插值、audio-to-video (A2Vid)、对口型和 HDR 输出提供专门的流水线。
- 多样化控制:为摄像机控制(dolly, jib, static)和运动追踪提供了一系列广泛的 LoRAs。
- 更轻量级的推理:包含模型的蒸馏版本,通过显著减少的步骤实现更快的生成。
- 优化:支持 FP8 量化和 FlashAttention 4,以便在现代 GPU 上进行高性能推理。
Sources
- undefinedLightricks/LTX-2