Moebius: 0.2B 軽量画像インペインティングフレームワーク

Moebius: 0.2B 軽量画像インペインティングフレームワーク

Moebius は、わずか 0.22 億パラメータで 10B レベルの性能を実現する軽量画像インペインティングフレームワークです。再構築された拡散バックボーンと適応型蒸留戦略を組み合わせることで、Moebius は高忠実度の画像補完とオブジェクト除去を提供し、産業用汎用モデルと比較して総推論時間を >15 倍高速化します。

極限の効率性と性能

Moebius は高品質インペインティングの計算オーバーヘッドを削減し、消費者向けデバイスやエッジデバイスでも技術を実用化できるようにします。主な性能指標は次のとおりです。

  • パラメータ削減: Moebius は 0.22B(226M)パラメータを使用し、FLUX.1-Fill-Dev モデルの 11.9B パラメータの 2% 未満です。
  • 推論速度: 単一 GPU 上でステップあたり 26.01 ms の推論レイテンシを達成し、10B レベルのモデルと比較して総実行時間が 15 倍以上高速化します。
  • 品質ベンチマーク: 自然シーン(Places2)とポートレートシーン(CelebA-HQ、FFHQ)をカバーする 6 つのベンチマークにおいて、Moebius は FLUX.1-Fill-Dev や SD3.5 Large-Inpainting などの最先端汎用モデルと同等、またはそれを上回る性能を示し、特に複雑なテクスチャや顔の自然さで優れています。

コア技術イノベーション

Moebius は、極端な構造圧縮によって通常生じる表現ボトルネックを、LλMI ブロックと適応型マルチ粒度蒸留という二つの相乗的イノベーションで克服します。

ローカル-λ ミックスインタラクション (LλMI) ブロック

標準的なアテンション機構の二次計算オーバーヘッドを回避するため、Moebius は LλMI ブロックを導入します。このアーキテクチャは、自己アテンションとクロスアテンションの両方を、空間コンテキストとグローバルセマンティック事前情報を固定サイズの線形行列に凝縮する形で再定式化します。これにより、モデルは複雑な潜在相互作用を保持しながら、パラメータ総数を大幅に削減できます。

適応型マルチ粒度蒸留

Moebius は、より大きな教師モデル PixelHacker から Moebius 学習モデルへ表現能力を転送する蒸留戦略を採用します。この戦略の主な特徴は次のとおりです。

  • 潜在空間操作: 蒸留はピクセル空間のデコードに伴う高コストを回避し、潜在空間内でのみ行われます。
  • マルチ粒度監視: 微視的な中間特徴から巨視的な拡散軌跡まで、幅広いスケールの監視を整合させます。
  • 勾配ノルム適応重み付け: 動的メカニズムが学習損失をバランスさせ、学生モデルが表現の飽和に達することなく最大限のセマンティック推論を吸収できるようにします。

実用的な応用とコミュニティのフィードバック

Moebius はタスク固有のスペシャリストとして設計されており、インペインティングのように明確に定義されたタスクには、汎用基盤モデルのようなパラメータの膨張は不要であると主張しています。

コミュニティの議論と初期テストでは、いくつかの実用的な考慮点が浮き彫りになっています。

  • デプロイ: モデルの小型化によりブラウザ上でのデプロイが可能です。ある開発者は Moebius を ONNX に移植し、約 1.3GB のダウンロードでインタラクティブなウェブデモを実現しました。
  • 制限事項: 一部のユーザーは、インペイントされた領域が周囲よりも目立って滑らかに見えることや、現在の出力解像度が 512x512 に限定されていることを指摘しています。
  • 視覚的アーティファクト: 厳密な観察者は、自然シーンのサンプルでオブジェクトが伸びるなどの「構造的混乱」の可能性を指摘しています。

"0.2B モデルとしては非常に印象的ですが、10B モデルと同等であると納得させるのは非常に難しいです。自然画像ではある程度うまく機能しましたが、インペイントされた領域は周囲よりも目立って滑らかで、新しいオブジェクトに対しては非常に悪い結果でした。"

"ONNX でこれを動かすことに成功しました… そして現在、ブラウザだけで完全に動作するインタラクティブデモがあります。"

Sources