DiffSynth-Studio:一個用於探索與訓練尖端生成模型的開源擴散引擎

DiffSynth-Studio:一個用於探索與訓練尖端生成模型的開源擴散引擎

它解決了什麼問題

DiffSynth-Studio 是一個開源的擴散模型引擎,旨在降低探索與實作生成式 AI 的技術門檻。它為研究人員和開發者提供了一個統一的框架,可以用於實驗各種模態的尖端擴散模型,包括文字轉圖像、圖像編輯以及音訊-影片生成。

運作原理

該引擎作為一個靈活的程式碼庫,支援廣泛的尖端模型(例如 FLUX.2、Z-Image 和 Wan),並為推論與訓練提供專業工具。它實作了先進的 VRAM 管理技術,例如層級磁碟卸載(layer-level disk offloading),以便在消費級硬體上使用大型模型。在訓練方面,它提供了如分割訓練(Split Training,將數據處理與梯度反向傳播分離)和 CPU 卸載訓練(CPU Offload Training)等專業模式,以進一步降低記憶體需求。

目標對象

它主要針對希望在生成式 AI 領域進行激進技術探索並實作「狂野想法」的學術研究人員和開發者。

重點功能

  • 多模態支援:支援圖像生成、圖像編輯、音訊-影片生成以及文字轉音樂。
  • VRAM 優化:包含 CPU 卸載訓練和層級磁碟卸載,以支援在消費級 GPU 上運行大型模型。
  • 進階訓練框架:具備分割訓練(Split Training)、Differential LoRA 訓練以及 FP8 精準度支援。
  • 擴散模板:一個旨在簡化可控生成模型訓練的插件框架。
  • 圖像轉 LoRA:實作了一種範式,讓圖像風格 LoRA 可以透過單次推論步驟生成,而非耗時數小時的訓練。

Sources