JoyAI-Image: 공간 추론, 이미지 생성 및 지침 기반 편집을 위한 통합 멀티모달 파운데이션 모델

해결하는 문제

JoyAI-Image는 이미지 이해와 생성 사이의 간극을 메우기 위해 단일 프레임워크 내에서 이미지를 인식, 생성 및 편집할 수 있는 통합 모델을 구축함으로써 이 문제를 해결합니다. 특히 "공간 지능"에 초점을 맞추어, 일반적인 이미지 모델이 어려워하는 복잡한 공간 추론, 정밀한 객체 조작 및 시점 변화를 처리할 수 있도록 합니다.

작동 방식

이 프로젝트는 이해를 위한 8B Multimodal Large Language Model (MLLM)과 생성을 위한 16B Multimodal Diffusion Transformer (MMDiT)를 결합한 하이브리드 아키텍처를 사용합니다. 이 두 구성 요소는 폐쇄 루프 협업 방식으로 작동합니다. MLLM은 생성을 가이드하기 위한 장면 파싱 및 관계적 그라운딩을 제공하고, 생성 기능(예: 시점 변경)은 MLLM이 공간 관계를 더 정확하게 추론할 수 있도록 새로운 시각적 증거를 제공합니다.

대상 사용자

이 도구는 멀티모달 AI 분야에서 연구하는 연구원 및 개발자, 특히 고정밀 이미지 편집, 3D 인식 이미지 합성 또는 3D 재구성 및 비디오 생성과 같은 작업을 위한 고급 공간 추론이 필요한 사용자들을 위해 설계되었습니다.

주요 특징

통합 프레임워크: 이미지 이해, text-to-image 생성 및 지침 기반 편집을 처리하는 단일 모델 제품군.
공간 지능: 객체를 특정 영역으로 이동시키거나, 객체를 표준 뷰로 회전시키거나, 카메라의 yaw, pitch, zoom을 제어하는 등 정밀한 공간 편집 패턴을 지원합니다.
고급 타이포그래피: 다중 행 텍스트, 다국어 타이포그래피 및 필기 스타일을 포함한 복잡한 텍스트 렌더링에 최적화되어 있습니다.
다중 이미지 편집: "Plus" 버전은 이미지 간의 구성을 결합하거나 여러 이미지에 걸친 공동 조작을 지원합니다.
통합: Hugging Face Diffusers 라이브러리 및 ComfyUI와 호환됩니다.

JoyAI-Image: 공간 추론, 이미지 생성 및 지침 기반 편집을 위한 통합 멀티모달 파운데이션 모델

JoyAI-Image: 공간 추론, 이미지 생성 및 지침 기반 편집을 위한 통합 멀티모달 파운데이션 모델

해결하는 문제

작동 방식

대상 사용자

주요 특징

Sources