LTX-2: 一款基於 DiT 的音訊-影片基礎模型,具備同步聲音與生產級控制功能

LTX-2: 一款基於 DiT 的音訊-影片基礎模型,具備同步聲音與生產級控制功能

它解決了什麼問題

LTX-2 是一款旨在將各種影片生成能力統一到單一系統中的基礎模型。它解決了對高保真、生產級影片輸出需求,包括同步音訊、精確的攝影機控制,以及執行複雜編輯(如對嘴或區域再生)的能力。

運作原理

LTX-2 基於 Diffusion Transformer (DiT) 架構,使用多階段流水線來生成影片。它支援各種生成模式,包括 text-to-video 和 image-to-video,並可以透過 LoRAs 進行增強以實現特定控制(例如攝影機移動、姿勢或 HDR 輸出)。該系統包含空間與時間放大器以提高解析度與幀率,並利用 Gemma 3 文字編碼器進行提示詞處理。

對象是誰

此專案適用於 AI 研究人員、影片製作人以及需要對動作、音訊與視覺品質進行細粒度控制的專業級影片生成工具的開發者。

重點摘要

  • 統一能力:在單一模型中結合了同步音訊-影片生成、text-to-video 與 image-to-video。
  • 多樣化流水線:為關鍵影格插值、audio-to-video (A2Vid)、對嘴以及 HDR 輸出提供專門的流水線。
  • 多樣化控制:為攝影機控制(dolly, jib, static)與動作追蹤提供廣泛的 LoRAs。
  • 更輕量化的推論:包含模型的蒸餾版本,可透過顯著減少的步驟實現更快速的生成。
  • 優化:支援 FP8 量化與 FlashAttention 4,以便在現代 GPU 上進行高效能推論。

Sources