JoyAI-Image: 空間推論、画像生成、および指示による編集のための統合マルチモーダル基盤モデル

JoyAI-Image: 空間推論、画像生成、および指示による編集のための統合マルチモーダル基盤モデル

何を解決するか

JoyAI-Imageは、単一のフレームワーク内で画像を認識、生成、編集できる統合モデルを作成することで、画像理解と生成の間のギャップを埋めます。特に「空間知能」に焦点を当てており、標準的な画像モデルでは困難な、複雑な空間推論、正確なオブジェクト操作、および視点の変更をモデルが扱えるようにします。

仕組み

このプロジェクトは、理解のための8B Multimodal Large Language Model (MLLM)と、生成のための16B Multimodal Diffusion Transformer (MMDiT)を組み合わせたハイブリッドアーキテクチャを使用しています。これら2つのコンポーネントは、クローズドループのコラボレーションで動作します。MLLMは生成をガイドするためにシーンの解析と関係性のグラウンディングを提供し、生成機能(視点の変更など)は、MLLMが空間関係をより正確に推論するための新しい視覚的証拠を提供します。

対象者

このツールは、マルチモーダルAIに従事する研究者や開発者、特に高精度な画像編集、3Dを意識した画像合成、または3D再構成や動画生成のようなタスクのための高度な空間推論を必要とする人々を対象としています。

ハイライト

  • Unified Framework: 画像理解、text-to-image生成、および指示による編集を扱う単一のモデルファミリー。
  • Spatial Intelligence: オブジェクトを特定の領域に移動させる、オブジェクトを標準的なビューに回転させる、カメラのyaw、pitch、およびzoomを制御するといった、精密な空間編集パターンをサポート。
  • Advanced Typography: マルチラインテキスト、多言語タイポグラフィ、および手書きスタイルを含む、複雑なテキストレンダリングに最適化。
  • Multi-Image Editing: 「Plus」バージョンは、画像間の合成および複数の画像にわたる共同操作をサポート。
  • Integration: Hugging Face DiffusersライブラリおよびComfyUIと互換性があります。

Sources