Moebius:0.2B 輕量級影像修補框架

Moebius:0.2B 輕量級影像修補框架

Moebius 是一個輕量級的影像修補框架,僅使用 0.22 億參數即可達到 10B 級別的效能。透過重新構建的 diffusion 主幹結合自適應蒸餾策略,Moebius 能夠提供高保真度的影像補全與物件移除,較工業級通用模型的總推理時間加速超過 15 倍。

極致效率與效能

Moebius 降低了高品質修補的計算負擔,使此技術在消費級與邊緣裝置上也能可行。其主要效能指標包括:

  • 參數縮減:Moebius 使用 0.22B(226M)參數,僅佔 FLUX.1-Fill-Dev 模型 11.9B 參數的不到 2%。
  • 推理速度:模型在單張 GPU 上每步推理延遲為 26.01 ms,較 10B 級別模型的總執行時間提升超過 15 倍。
  • 品質基準:在涵蓋自然場景(Places2)與人像場景(CelebA‑HQ、FFHQ)的六項基準測試中,Moebius 的表現與最先進的通用模型(如 FLUX.1-Fill-Dev 與 SD3.5 Large‑Inpainting)持平或超越,尤其在複雜紋理與臉部真實感方面表現突出。

核心技術創新

Moebius 透過兩項協同創新——LλMI 模組與自適應多粒度蒸餾,克服了極端結構壓縮所帶來的表徵瓶頸。

Local‑λ Mix Interaction(LλMI)模組

為了繞過標準注意力機制的二次方計算開銷,Moebius 引入了 LλMI 模組。此架構將自注意力與交叉注意力重新表述,將空間上下文與全域語意先驗壓縮為固定大小的線性矩陣,使模型在保留複雜潛在交互的同時,大幅減少參數總量。

自適應多粒度蒸餾

Moebius 採用蒸餾策略,將更大教師模型 PixelHacker 的表徵能力轉移至 Moebius 學生模型。此策略的關鍵特點包括:

  • 潛在空間操作:蒸餾僅在潛在空間內進行,避免了像素空間解碼的高計算成本。
  • 多粒度監督:過程對齊從微觀中間特徵到宏觀 diffusion 軌跡的各層監督。
  • 梯度範數自適應加權:動態機制平衡訓練損失,確保學生模型在不達到表徵飽和的情況下吸收最大語意推理能力。

實際應用與社群回饋

Moebius 被設計為任務專屬的專家,主張明確定義的任務(如修補)不需要通用基礎模型的參數膨脹。

社群討論與早期測試指出了多項實務考量:

  • 部署:模型體積小巧,可在瀏覽器中部署。一位開發者成功將 Moebius 轉換為 ONNX,打造出約 1.3 GB 下載大小的互動式網頁示範。
  • 限制:部分使用者發現修補區域相較於周圍會顯得較為平滑,且模型目前僅支援最高 512×512 的輸出解析度。
  • 視覺偽影:嚴謹觀察者指出在特定樣本中可能出現「結構混亂」的情況,例如自然場景展示中物體被拉長。

"雖然 0.2B 模型的表現相當驚人,但要說它能與 10B 模型相匹配仍很難說服我。它在自然影像上表現尚可,但修補區域明顯比周圍更平滑,且在新奇物體上表現非常差。"

"我已經把它在 ONNX 上跑起來了…現在有一個完全在瀏覽器中執行的互動式模型示範。"

Sources