JoyAI-Image:一個用於空間推理、圖像生成與指令引導編輯的統一多模態基礎模型

JoyAI-Image:一個用於空間推理、圖像生成與指令引導編輯的統一多模態基礎模型

它解決了什麼問題

JoyAI-Image 透過建立一個能在單一框架內感知、生成與編輯圖像的統一模型,解決了圖像理解與生成之間的差距。它特別專注於「空間智能」,使模型能夠處理複雜的空間推理、精確的物體操作以及視角變化,而這些通常是標準圖像模型的挑戰所在。

運作原理

該專案採用混合架構,結合了用於理解的 8B Multimodal Large Language Model (MLLM) 與用於生成的 16B Multimodal Diffusion Transformer (MMDiT)。這兩個組件在閉環協作中運作:MLLM 提供場景解析與關係定位來引導生成,而生成能力(例如改變視角)則提供新的視覺證據,幫助 MLLM 更準確地對空間關係進行推理。

對象是誰

此工具是為從事多模態 AI 的研究人員與開發人員設計的,特別是那些需要高保真圖像編輯、具備 3D 感知能力的圖像合成,或是在 3D 重建與影片生成等任務中需要進階空間推理的人士。

重點亮點

  • 統一框架:一個能處理圖像理解、文字轉圖像生成以及指令引導編輯的單一模型系列。
  • 空間智能:支援精確的空間編輯模式,包括將物體移動到特定區域、將物體旋轉至標準視角,以及控制相機的 yaw、pitch 與 zoom。
  • 進階文字排版:針對複雜的文字渲染進行了優化,包括多行文字、多語言排版以及手寫風格。
  • 多圖編輯: 「Plus」版本支援跨圖像組合與多張圖像的聯合操作。
  • 整合:與 Hugging Face Diffusers 函式庫與 ComfyUI 相容。

Sources