DiffSynth-Studio: 一个用于前沿生成式模型探索与训练的开源扩散引擎
DiffSynth-Studio: 一个用于前沿生成式模型探索与训练的开源扩散引擎
它解决了什么问题
DiffSynth-Studio 是一个开源的扩散模型引擎,旨在降低探索和实现生成式 AI 的技术门槛。它为研究人员和开发人员提供了一个统一的框架,用于实验多种模态的前沿扩散模型,包括文本生成图像、图像编辑以及音视频生成。
工作原理
该引擎作为一个灵活的代码库,支持广泛的最先进模型(例如 FLUX.2, Z-Image, 和 Wan)并为推理和训练提供专门的工具。它实现了先进的 VRAM 管理技术,例如层级磁盘卸载(layer-level disk offloading),以便在消费级硬件上使用大型模型。对于训练,它提供了专门的模式,如 Split Training(将数据处理与梯度反向传播分离)和 CPU Offload Training,以进一步降低内存需求。
面向对象
它主要面向希望在生成式 AI 领域进行激进的技术探索并实现“疯狂想法”的学术研究人员和开发人员。
亮点
- 多模态支持:支持图像生成、图像编辑、音视频生成以及文本生成音乐。
- VRAM 优化:包括 CPU offload training 和层级磁盘卸载,以支持在消费级 GPU 上运行大型模型。
- 先进的训练框架:具有 Split Training、Differential LoRA 训练以及 FP8 精度支持。
- Diffusion Templates:一个旨在简化可控生成模型训练的插件框架。
- Image-to-LoRA:实现了一种范式,即图像风格 LoRA 可以在单个推理步骤中生成,而不是经过数小时的训练。
Sources
- undefinedmodelscope/DiffSynth-Studio