JoyAI-Image：一個用於空間推理、圖像生成與指令引導編輯的統一多模態基礎模型

它解決了什麼問題

JoyAI-Image 透過建立一個能在單一框架內感知、生成與編輯圖像的統一模型，解決了圖像理解與生成之間的差距。它特別專注於「空間智能」，使模型能夠處理複雜的空間推理、精確的物體操作以及視角變化，而這些通常是標準圖像模型的挑戰所在。

運作原理

該專案採用混合架構，結合了用於理解的 8B Multimodal Large Language Model (MLLM) 與用於生成的 16B Multimodal Diffusion Transformer (MMDiT)。這兩個組件在閉環協作中運作：MLLM 提供場景解析與關係定位來引導生成，而生成能力（例如改變視角）則提供新的視覺證據，幫助 MLLM 更準確地對空間關係進行推理。

對象是誰

此工具是為從事多模態 AI 的研究人員與開發人員設計的，特別是那些需要高保真圖像編輯、具備 3D 感知能力的圖像合成，或是在 3D 重建與影片生成等任務中需要進階空間推理的人士。

重點亮點

統一框架：一個能處理圖像理解、文字轉圖像生成以及指令引導編輯的單一模型系列。
空間智能：支援精確的空間編輯模式，包括將物體移動到特定區域、將物體旋轉至標準視角，以及控制相機的 yaw、pitch 與 zoom。
進階文字排版：針對複雜的文字渲染進行了優化，包括多行文字、多語言排版以及手寫風格。
多圖編輯：「Plus」版本支援跨圖像組合與多張圖像的聯合操作。
整合：與 Hugging Face Diffusers 函式庫與 ComfyUI 相容。

JoyAI-Image：一個用於空間推理、圖像生成與指令引導編輯的統一多模態基礎模型

JoyAI-Image：一個用於空間推理、圖像生成與指令引導編輯的統一多模態基礎模型

它解決了什麼問題

運作原理

對象是誰

重點亮點

Sources