ComfyUI-LTXVideo: 高度な LTX-2 ビデオ生成とオーディオ合成のためのカスタム ComfyUI ノード

ComfyUI-LTXVideo: 高度な LTX-2 ビデオ生成とオーディオ合成のためのカスタム ComfyUI ノード

何を解決するか

このプロジェクトは、LTX-2 ビデオ生成モデルの可能性を最大限に引き出すための、ComfyUI 用の一連のカスタムノードとワークフローを提供します。高ダイナミックレンジ (HDR) ビデオ、動きと構造の精密な制御、およびオーディオ生成のための特化したツールを追加することで、コアとなる ComfyUI LTX-2 統合を拡張します。

仕組み

ComfyUI のプラグインとして統合され、LTX-2 およびさまざまな特化した LoRA (Low-Rank Adaptation) とインターフェースするノードを提供します。これらの LoRA により、モデルはリップシンク、空間的なアップスケーリング、または深度とエッジマップに従うといった特定のタスクを実行できます。また、このプロジェクトには、LTX-2 の結合オーディオ/ビデオ Transformer アーキテクチャを活用してテキストからサウンドを生成する、専用のオーディオのみのモードも含まれています。

対象者

コンテンツクリエイター、AI ビデオアーティスト、および ComfyUI を使用して、プロフェッショナルグレードの HDR 出力や生成的なアップスケーリングを含む、LTX-2 ビデオ生成の高度な制御を求める開発者。

ハイライト

  • Union IC-LoRA: 深度とエッジ (canny) の制御条件を同時に処理する、単一の統合された LoRA。
  • HDR ビデオ: ARRI LogC3 でエンコードされた線形 HDR 出力をサポートし、EXR エクスポート機能を備えています。
  • Lipdub: 話者のアイデンティティを保持しながら、多言語での吹き替えや発話の言い換えを行うための特化した LoRA。
  • Generative Upscaling: 単純な補間ではなく、2x または 4x の解像度で新しい微細な詳細を合成する Pixel Spatial Upscaler LoRAs。
  • Text-to-Audio: テキストプロンプトからオーディオを生成するために、モデルをオーディオのみのモードで使用する機能。

Sources