Un-0: 결합된 진동자를 이용한 이미지 생성

Un-0: 결합된 진동자를 이용한 이미지 생성

Un-0은 기존의 심층 신경망 계층을 시뮬레이션된 결합된 Kuramoto 진동자 시스템으로 대체하는 생성형 AI 모델입니다. 물리 법칙, 특히 동기화된 진동자의 역학을 활용함으로써, Un-0은 현대의 AI 워크로드가 물리적 기질 위에서 실행될 수 있음을 보여주며, GPU 기반 실행에 비해 에너지 소비를 최대 1,000배까지 줄일 수 있는 잠재력을 가지고 있습니다.

성능 및 벤치마크

Un-0은 class-conditional ImageNet 64×64에서 6.74의 FID (Fréchet Inception Distance)를 달성했습니다. 이 성능은 BigGAN, iDDPM, WGAN-GP와 같이 초기 발표 당시의 여러 선도적인 기존 이미지 생성 방법의 품질과 일치합니다.

모델 스케일링 및 결과

Un-0은 CIFAR-10 및 ImageNet 64×64에 대해 다양한 스케일로 테스트되었습니다:

ImageNet 64×64 결과:

Model Oscillator Count Total Parameters FID@50k
Un-0.n6656 6,656 57.17M 8.41
Un-0.n10240 10,240 129.80M 8.01
Un-0.n16384 16,384 322.44M 6.74

CIFAR-10 결과:

Model Oscillator Count Total Parameters FID@50k
Un-0.n1024 1,024 1.29M 11.01
Un-0.n2048 2,048 4.94M 9.32
Un-0.n4096 4,096 19.43M 8.76

Un-0은 소형 모델에 대해 Pareto frontier를 확장하지만, 매개변수 수에 따른 품질 향상이 기존 frontier보다 느리기 때문에 현재 EDM 및 GDD와 같은 최첨단 기존 베이스라인을 대규모 스케일에서는 따라가지 못하고 있습니다.

Un-0의 작동 원리: 생성의 물리

Un-0은 각 진동자가 고유 주파수를 가지며, 학습 가능한 결합 행렬을 통해 다른 진동자와 결합되는 Kuramoto 모델을 활용합니다. 시스템은 각 진동자의 위상이 이웃 진동자의 견인력에 의해 유도되는 상미분 방정식 (ODE)에 따라 진화합니다.

추론 과정

이미지 생성은 5단계 파이프라인을 따릅니다:

  1. 무작위 초기화: 모든 진동자의 위상은 무작위 각도로 설정되며, 이는 시드 역할을 합니다 (diffusion 모델의 노이즈와 유사함).
  2. 클래스 조건화: 더 작은 그룹의 진동자들이 요청된 클래스를 유도하여, 주 진동자 집단이 클래스와 관련된 배열로 편향되도록 합니다.
  3. 물리적 실행: 시스템은 학습된 결합 강도에 따라 진동자들이 서로를 끌어당기며 시간에 따라 진화합니다.
  4. 스냅샷: 특정 시간 $T$에서, 모든 진동자의 위상은 잠재 표현(latent representation)으로 기록됩니다.
  5. 렌더링: 기존의 디코더 (전체 모델 매개변수의 13% 미만으로 구성됨)가 이러한 잠재 표현을 최종 픽셀로 변환합니다.

학습 가능한 매개변수

학습은 세 가지 주요 구성 요소에 집중됩니다:

  • 결합 행렬 $K$ (진동자 간의 상호작용 방식).
  • 각 진동자의 고유 주파수 $\omega_i$.
  • 기존 디코더의 가중치.

어블레이션 분석: 계산의 귀속

물리적 역학이 실제 계산을 수행하는지, 아니면 디코더가 주요 역할을 수행하는지 판단하기 위해 Unconventional AI는 여러 어블레이션을 수행했습니다:

  • Decoder Only: 어떠한 역학도 없이 디코더만 학습시키는 방식입니다. 이는 가장 낮은 성능을 나타냈으며, 디코더가 원시 노이즈를 목표 이미지로 매핑하는 데 어려움을 겪음을 보여줍니다.
  • Reservoir: 역학적 가중치를 무작위 초기화로 고정하는 방식입니다. 이는 디코더 전용 베이스라인보다 성능이 향상되었으며, 이는 무작위 역학이 디코더에 더 분리 가능한 입력을 제공함을 시사합니다.
  • Time Delta: 적분 단계(integration steps)를 변화시키는 방식입니다. 학습된 역학을 가진 모델과 더 많은 적분 단계 (예: 10단계)를 가진 모델은 reservoir 모델과 1단계 학습 모델 모두를 크게 능가했습니다.

이러한 결과는 Un-0이 비선형 역학을 사용하여 계산을 수행하며, 학습된 역학은 무작위 reservoir 역학보다 모델 크기 감소에 대해 더 견로한 성능을 보여줌을 나타냅니다.

역학 분석: 다양성 vs 품질

모델의 behavior의 분석은 물리적 기질과 기존 구성 요소 간의 기능적 분리를 보여줍니다:

  • 역학을 통한 다양성: Kuramoto 시스템은 이미지 다양성 (recall)을 유지하는 역할을 합니다. 학습된 네트워크는 클래스 매니폴드와 정렬되면서 시간이 지남에 따라 다양성을 측정 가능하게 증가시키며, untrained reservoir 모델의 다양성 붕괴를 방지합니다.
  • 디코더를 통한 품질: 기존의 디코더는 이미지 품질 생성기 (precision) 역할을 합니다.

$T=1$에서의 디코더 공간의 저차원 투영 (PCA)은 클래스 간의 높은 시각적 분리도를 보여주며, 이는 목적 함수가 역학을 유도하여 유효한 디코더 입력 차원과 비교하여 저차원 공간에서 뚜렷렷한 클러스터를 생성하도록 유도함을 확인시켜 줍니다.

Sources