JoyAI-Image: 一个用于空间推理、图像生成和指令引导编辑的统一多模态基础模型

JoyAI-Image: 一个用于空间推理、图像生成和指令引导编辑的统一多模态基础模型

它解决了什么问题

JoyAI-Image 通过创建一个可以在单一框架内感知、生成和编辑图像的统一模型,填补了图像理解与生成之间的鸿沟。它特别专注于“空间智能”,使模型能够处理复杂的空间推理、精确的对象操作和视角变化,而这些通常是标准图像模型的挑战。

它是如何工作的

该项目使用了一种混合架构,结合了用于理解的 8B Multimodal Large Language Model (MLLM) 和用于生成的 16B Multimodal Diffusion Transformer (MMDiT)。这两个组件在闭环协作中工作:MLLM 提供场景解析和关系定位来引导生成,而生成能力(如改变视角)则提供新的视觉证据,帮助 MLLM 更准确地推理空间关系。

它是为谁设计的

该工具专为从事多模态 AI 的研究人员和开发人员设计,特别是那些需要高保真图像编辑、3D 感知图像合成,或在 3D 重建和视频生成等任务中需要高级空间推理的人员。

亮点

  • 统一框架:一个处理图像理解、文本到图像生成和指令引导编辑的单一模型系列。
  • 空间智能:支持精确的空间编辑模式,包括将对象移动到特定区域、将对象旋转到标准视图,以及控制摄像机的 yaw、pitch 和 zoom。
  • 高级排版:针对复杂的文本渲染进行了优化,包括多行文本、多语言排版和手写风格。
  • 多图像编辑:"Plus" 版本支持跨图像组合和多张图像的联合操作。
  • 集成:兼容 Hugging Face Diffusers 库和 ComfyUI。

Sources