LTX-2: 同期されたサウンドとプロダクション対応のコントロールを備えたDiTベースのオーディオ・ビデオ基盤モデル

解決する課題

LTX-2は、さまざまなビデオ生成機能を単一のシステムに統合するために設計された基盤モデルです。同期されたオーディオ、精密なカメラコントロール、そしてリップダビングや領域再生生成のような複雑な編集を実行する能力を含む、高忠実度でプロダクション対応のビデオ出力を提供するニーズに応えます。

仕組み

Diffusion Transformer (DiT) アーキテクチャに基づいて構築されたLTX-2は、マルチステージのパイプラインを使用してビデオを生成します。text-to-videoやimage-to-videoを含むさまざまな生成モードをサポートしており、特定のコントロール（カメラの動き、ポーズ、またはHDR出力など）のためにLoRAsで強化することができます。システムには、解像度とフレームレートを向上させるための空間的および時間的なアップスケーラーが含まれており、prompt処理のためにGemma 3テキストエンコーダーを利用しています。

対象ユーザー

このプロジェクトは、動き、オーディオ、および視覚的な品質に対してきめ細かなコントロールを必要とするAI研究者、ビデオプロデューサー、および開発者向けです。

ハイライト

統合された機能: 同期されたオーディオ・ビデオ生成、text-to-video、およびimage-to-videoを一つのモデルに組み合わせます。
多様なパイプライン: キーフレーム補間、audio-to-video (A2Vid)、リップダビング、およびHDR出力のための専門化されたパイプラインを提供します。
多様なコントロール: カメラコントロール（dolly, jib, static）およびモーショントラッキングのための幅広いLoRAsを提供します。
軽量な推論: 生成ステップ数を大幅に削減し、より高速な生成を可能にするモデルの蒸留（distilled）バージョンが含まれています。
最適化: 最新のGPUでの高性能な推論のために、FP8量子化とFlashAttention 4をサポートしています。

LTX-2: 同期されたサウンドとプロダクション対応のコントロールを備えたDiTベースのオーディオ・ビデオ基盤モデル

LTX-2: 同期されたサウンドとプロダクション対応のコントロールを備えたDiTベースのオーディオ・ビデオ基盤モデル

解決する課題

仕組み

対象ユーザー

ハイライト

Sources