Moebius: 0.2B 경량 이미지 인페인팅 프레임워크

Moebius: 0.2B 경량 이미지 인페인팅 프레임워크

Moebius는 0.22억 개의 파라미터만으로 10B 수준의 성능을 달성하는 경량 이미지 인페인팅 프레임워크입니다. 재구성된 디퓨전 백본과 적응형 증류 전략을 결합함으로써, Moebius는 산업용 일반 모델에 비해 전체 추론 시간에서 >15배 가속된 고충실도 이미지 완성 및 객체 제거를 제공합니다.

극한 효율성과 성능

Moebius는 고품질 인페인팅의 계산 오버헤드를 줄여, 소비자 등급 및 엣지 디바이스에서도 기술을 활용할 수 있게 합니다. 주요 성능 지표는 다음과 같습니다:

  • 파라미터 감소: Moebius는 0.22B(226M) 파라미터를 사용하며, 이는 FLUX.1-Fill-Dev 모델의 11.9B 파라미터의 2% 미만에 해당합니다.
  • 추론 속도: 모델은 단일 GPU에서 단계당 26.01 ms의 추론 지연을 달성하여, 10B 수준 모델에 비해 전체 실행 시간에서 15배 이상 가속됩니다.
  • 품질 벤치마크: 자연 장면(Places2)과 인물 장면(CelebA‑HQ, FFHQ)을 포함한 6개의 벤치마크에서 Moebius는 FLUX.1-Fill-Dev 및 SD3.5 Large‑Inpainting과 같은 최첨단 일반 모델과 동등하거나 이를 능가하는 성능을 보이며, 특히 복잡한 텍스처와 얼굴 현실성에서 뛰어납니다.

핵심 기술 혁신

Moebius는 두 가지 시너지 혁신인 LλMI 블록과 적응형 다중‑입자 증류를 통해 극단적인 구조 압축으로 인한 표현 병목을 극복합니다.

Local-λ Mix Interaction (LλMI) 블록

표준 어텐션 메커니즘의 2차 계산 오버헤드를 회피하기 위해 Moebius는 LλMI 블록을 도입합니다. 이 아키텍처는 공간 컨텍스트와 전역 의미 사전 정보를 고정 크기의 선형 행렬로 압축하여 자체 및 교차 어텐션을 재구성합니다. 이를 통해 모델은 복잡한 잠재 상호작용을 유지하면서 파라미터 수를 크게 줄일 수 있습니다.

Adaptive Multi-Granularity Distillation

Moebius는 증류 전략을 활용해 더 큰 교사 모델인 PixelHacker의 표현 능력을 Moebius 학생 모델로 전달합니다. 이 전략의 주요 특징은 다음과 같습니다:

  • 잠재 공간 연산: 증류는 픽셀 공간 디코딩의 높은 계산 비용을 피하기 위해 순수히 잠재 공간 내에서 이루어집니다.
  • 다중‑입자 감독: 미세한 중간 특징부터 거시적인 디퓨전 궤적까지 다양한 수준의 감독을 정렬합니다.
  • 그래디언트 노름 적응 가중치: 동적 메커니즘이 학습 손실을 균형 있게 조정하여 학생 모델이 표현 포화에 도달하지 않으면서 최대 의미 추론을 흡수하도록 합니다.

실용적 적용 및 커뮤니티 피드백

Moebius는 작업‑특화 전문가로 설계되어, 명시적으로 정의된 작업(예: 인페인팅)이 일반 기반 모델의 파라미터 과잉을 필요로 하지 않음을 주장합니다.

커뮤니티 토론과 초기 테스트에서는 몇 가지 실용적 고려사항이 강조되었습니다:

  • 배포: 모델의 작은 크기로 브라우저 기반 배포가 가능해졌습니다. 한 개발자는 Moebius를 ONNX로 포팅해 ~1.3 GB 다운로드 크기의 인터랙티브 웹 데모를 성공적으로 구현했습니다.
  • 제한 사항: 일부 사용자는 인페인팅된 영역이 주변 영역보다 눈에 띄게 부드럽게 보이며, 현재 모델이 512×512 출력 해상도로 제한된다고 지적했습니다.
  • 시각적 아티팩트: 특정 샘플에서 객체가 늘어지는 등 "구조적 혼란"이 발생할 수 있다는 비판도 있었습니다.

"0.2B 모델이라 매우 인상적이지만, 이것이 10B 모델과 일치한다는 것을 설득하기는 매우 어렵습니다. 자연 이미지에서는 어느 정도 잘 작동했지만, 인페인팅된 영역이 주변보다 눈에 띄게 부드럽게 보였고, 새로운 객체에 대해서는 매우 나쁜 성능을 보였습니다."

"ONNX로 작업을 성공적으로 마쳤고, 이제 브라우저에서 완전히 실행되는 인터랙티브 데모를 가지고 있습니다."

Sources