LTX-2: 一款基於 DiT 的音訊-影片基礎模型，具備同步聲音與生產級控制功能

它解決了什麼問題

LTX-2 是一款旨在將各種影片生成能力統一到單一系統中的基礎模型。它解決了對高保真、生產級影片輸出需求，包括同步音訊、精確的攝影機控制，以及執行複雜編輯（如對嘴或區域再生）的能力。

運作原理

LTX-2 基於 Diffusion Transformer (DiT) 架構，使用多階段流水線來生成影片。它支援各種生成模式，包括 text-to-video 和 image-to-video，並可以透過 LoRAs 進行增強以實現特定控制（例如攝影機移動、姿勢或 HDR 輸出）。該系統包含空間與時間放大器以提高解析度與幀率，並利用 Gemma 3 文字編碼器進行提示詞處理。

對象是誰

此專案適用於 AI 研究人員、影片製作人以及需要對動作、音訊與視覺品質進行細粒度控制的專業級影片生成工具的開發者。

重點摘要

統一能力：在單一模型中結合了同步音訊-影片生成、text-to-video 與 image-to-video。
多樣化流水線：為關鍵影格插值、audio-to-video (A2Vid)、對嘴以及 HDR 輸出提供專門的流水線。
多樣化控制：為攝影機控制（dolly, jib, static）與動作追蹤提供廣泛的 LoRAs。
更輕量化的推論：包含模型的蒸餾版本，可透過顯著減少的步驟實現更快速的生成。
優化：支援 FP8 量化與 FlashAttention 4，以便在現代 GPU 上進行高效能推論。

LTX-2: 一款基於 DiT 的音訊-影片基礎模型，具備同步聲音與生產級控制功能

LTX-2: 一款基於 DiT 的音訊-影片基礎模型，具備同步聲音與生產級控制功能

它解決了什麼問題

運作原理

對象是誰

重點摘要

Sources