LTX-2: 基于 DiT 的音视频基础模型，具备同步声音和生产级控制功能

它解决了什么问题

LTX-2 是一个旨在将各种视频生成能力统一到一个系统中的基础模型。它解决了对高保真、生产级视频输出的需求，这些输出包括同步音频、精确的摄像机控制，以及执行复杂的编辑操作（如对口型或局部重绘）的能力。

工作原理

LTX-2 基于 Diffusion Transformer (DiT) 架构构建，使用多阶段流水线来生成视频。它支持多种生成模式，包括 text-to-video 和 image-to-video，并可以通过 LoRAs 来增强特定控制（例如摄像机运动、姿态或 HDR 输出）。该系统包含空间和时间放大器以提高分辨率和帧率，并利用 Gemma 3 文本编码器进行提示词处理。

适用人群

该项目适用于 AI 研究人员、视频制作人以及需要对运动、音频和视觉质量进行细粒度控制的专业级视频生成工具的开发者。

亮点

统一能力：在一个模型中结合了同步音视频生成、text-to-video 和 image-to-video。
多样化流水线：为关键帧插值、audio-to-video (A2Vid)、对口型和 HDR 输出提供专门的流水线。
多样化控制：为摄像机控制（dolly, jib, static）和运动追踪提供了一系列广泛的 LoRAs。
更轻量级的推理：包含模型的蒸馏版本，通过显著减少的步骤实现更快的生成。
优化：支持 FP8 量化和 FlashAttention 4，以便在现代 GPU 上进行高性能推理。

LTX-2: 基于 DiT 的音视频基础模型，具备同步声音和生产级控制功能

LTX-2: 基于 DiT 的音视频基础模型，具备同步声音和生产级控制功能

它解决了什么问题

工作原理

适用人群

亮点

Sources