Moebius：0.2B 輕量級影像修補框架

Moebius：0.2B 輕量級影像修補框架

Moebius 是一個輕量級的影像修補框架，僅使用 0.22 億參數即可達到 10B 級別的效能。透過重新構建的 diffusion 主幹結合自適應蒸餾策略，Moebius 能夠提供高保真度的影像補全與物件移除，較工業級通用模型的總推理時間加速超過 15 倍。

極致效率與效能

Moebius 降低了高品質修補的計算負擔，使此技術在消費級與邊緣裝置上也能可行。其主要效能指標包括：

參數縮減：Moebius 使用 0.22B（226M）參數，僅佔 FLUX.1-Fill-Dev 模型 11.9B 參數的不到 2%。
推理速度：模型在單張 GPU 上每步推理延遲為 26.01 ms，較 10B 級別模型的總執行時間提升超過 15 倍。
品質基準：在涵蓋自然場景（Places2）與人像場景（CelebA‑HQ、FFHQ）的六項基準測試中，Moebius 的表現與最先進的通用模型（如 FLUX.1-Fill-Dev 與 SD3.5 Large‑Inpainting）持平或超越，尤其在複雜紋理與臉部真實感方面表現突出。

核心技術創新

Moebius 透過兩項協同創新——LλMI 模組與自適應多粒度蒸餾，克服了極端結構壓縮所帶來的表徵瓶頸。

Local‑λ Mix Interaction（LλMI）模組

為了繞過標準注意力機制的二次方計算開銷，Moebius 引入了 LλMI 模組。此架構將自注意力與交叉注意力重新表述，將空間上下文與全域語意先驗壓縮為固定大小的線性矩陣，使模型在保留複雜潛在交互的同時，大幅減少參數總量。

自適應多粒度蒸餾

Moebius 採用蒸餾策略，將更大教師模型 PixelHacker 的表徵能力轉移至 Moebius 學生模型。此策略的關鍵特點包括：

潛在空間操作：蒸餾僅在潛在空間內進行，避免了像素空間解碼的高計算成本。
多粒度監督：過程對齊從微觀中間特徵到宏觀 diffusion 軌跡的各層監督。
梯度範數自適應加權：動態機制平衡訓練損失，確保學生模型在不達到表徵飽和的情況下吸收最大語意推理能力。

實際應用與社群回饋

Moebius 被設計為任務專屬的專家，主張明確定義的任務（如修補）不需要通用基礎模型的參數膨脹。

社群討論與早期測試指出了多項實務考量：

部署：模型體積小巧，可在瀏覽器中部署。一位開發者成功將 Moebius 轉換為 ONNX，打造出約 1.3 GB 下載大小的互動式網頁示範。
限制：部分使用者發現修補區域相較於周圍會顯得較為平滑，且模型目前僅支援最高 512×512 的輸出解析度。
視覺偽影：嚴謹觀察者指出在特定樣本中可能出現「結構混亂」的情況，例如自然場景展示中物體被拉長。

"雖然 0.2B 模型的表現相當驚人，但要說它能與 10B 模型相匹配仍很難說服我。它在自然影像上表現尚可，但修補區域明顯比周圍更平滑，且在新奇物體上表現非常差。"

"我已經把它在 ONNX 上跑起來了…現在有一個完全在瀏覽器中執行的互動式模型示範。"

Sources

HNMoebius: 0.2B image inpainting model with 10B-level performance