Un-0: 결합된 진동자를 이용한 이미지 생성
Un-0: 결합된 진동자를 이용한 이미지 생성
Un-0은 기존의 심층 신경망 계층을 시뮬레이션된 결합된 Kuramoto 진동자 시스템으로 대체하는 생성형 AI 모델입니다. 물리 법칙, 특히 동기화된 진동자의 역학을 활용함으로써, Un-0은 현대의 AI 워크로드가 물리적 기질 위에서 실행될 수 있음을 보여주며, GPU 기반 실행에 비해 에너지 소비를 최대 1,000배까지 줄일 수 있는 잠재력을 가지고 있습니다.
성능 및 벤치마크
Un-0은 class-conditional ImageNet 64×64에서 6.74의 FID (Fréchet Inception Distance)를 달성했습니다. 이 성능은 BigGAN, iDDPM, WGAN-GP와 같이 초기 발표 당시의 여러 선도적인 기존 이미지 생성 방법의 품질과 일치합니다.
모델 스케일링 및 결과
Un-0은 CIFAR-10 및 ImageNet 64×64에 대해 다양한 스케일로 테스트되었습니다:
ImageNet 64×64 결과:
| Model | Oscillator Count | Total Parameters | FID@50k |
|---|---|---|---|
| Un-0.n6656 | 6,656 | 57.17M | 8.41 |
| Un-0.n10240 | 10,240 | 129.80M | 8.01 |
| Un-0.n16384 | 16,384 | 322.44M | 6.74 |
CIFAR-10 결과:
| Model | Oscillator Count | Total Parameters | FID@50k |
|---|---|---|---|
| Un-0.n1024 | 1,024 | 1.29M | 11.01 |
| Un-0.n2048 | 2,048 | 4.94M | 9.32 |
| Un-0.n4096 | 4,096 | 19.43M | 8.76 |
Un-0은 소형 모델에 대해 Pareto frontier를 확장하지만, 매개변수 수에 따른 품질 향상이 기존 frontier보다 느리기 때문에 현재 EDM 및 GDD와 같은 최첨단 기존 베이스라인을 대규모 스케일에서는 따라가지 못하고 있습니다.
Un-0의 작동 원리: 생성의 물리
Un-0은 각 진동자가 고유 주파수를 가지며, 학습 가능한 결합 행렬을 통해 다른 진동자와 결합되는 Kuramoto 모델을 활용합니다. 시스템은 각 진동자의 위상이 이웃 진동자의 견인력에 의해 유도되는 상미분 방정식 (ODE)에 따라 진화합니다.
추론 과정
이미지 생성은 5단계 파이프라인을 따릅니다:
- 무작위 초기화: 모든 진동자의 위상은 무작위 각도로 설정되며, 이는 시드 역할을 합니다 (diffusion 모델의 노이즈와 유사함).
- 클래스 조건화: 더 작은 그룹의 진동자들이 요청된 클래스를 유도하여, 주 진동자 집단이 클래스와 관련된 배열로 편향되도록 합니다.
- 물리적 실행: 시스템은 학습된 결합 강도에 따라 진동자들이 서로를 끌어당기며 시간에 따라 진화합니다.
- 스냅샷: 특정 시간 $T$에서, 모든 진동자의 위상은 잠재 표현(latent representation)으로 기록됩니다.
- 렌더링: 기존의 디코더 (전체 모델 매개변수의 13% 미만으로 구성됨)가 이러한 잠재 표현을 최종 픽셀로 변환합니다.
학습 가능한 매개변수
학습은 세 가지 주요 구성 요소에 집중됩니다:
- 결합 행렬 $K$ (진동자 간의 상호작용 방식).
- 각 진동자의 고유 주파수 $\omega_i$.
- 기존 디코더의 가중치.
어블레이션 분석: 계산의 귀속
물리적 역학이 실제 계산을 수행하는지, 아니면 디코더가 주요 역할을 수행하는지 판단하기 위해 Unconventional AI는 여러 어블레이션을 수행했습니다:
- Decoder Only: 어떠한 역학도 없이 디코더만 학습시키는 방식입니다. 이는 가장 낮은 성능을 나타냈으며, 디코더가 원시 노이즈를 목표 이미지로 매핑하는 데 어려움을 겪음을 보여줍니다.
- Reservoir: 역학적 가중치를 무작위 초기화로 고정하는 방식입니다. 이는 디코더 전용 베이스라인보다 성능이 향상되었으며, 이는 무작위 역학이 디코더에 더 분리 가능한 입력을 제공함을 시사합니다.
- Time Delta: 적분 단계(integration steps)를 변화시키는 방식입니다. 학습된 역학을 가진 모델과 더 많은 적분 단계 (예: 10단계)를 가진 모델은 reservoir 모델과 1단계 학습 모델 모두를 크게 능가했습니다.
이러한 결과는 Un-0이 비선형 역학을 사용하여 계산을 수행하며, 학습된 역학은 무작위 reservoir 역학보다 모델 크기 감소에 대해 더 견로한 성능을 보여줌을 나타냅니다.
역학 분석: 다양성 vs 품질
모델의 behavior의 분석은 물리적 기질과 기존 구성 요소 간의 기능적 분리를 보여줍니다:
- 역학을 통한 다양성: Kuramoto 시스템은 이미지 다양성 (recall)을 유지하는 역할을 합니다. 학습된 네트워크는 클래스 매니폴드와 정렬되면서 시간이 지남에 따라 다양성을 측정 가능하게 증가시키며, untrained reservoir 모델의 다양성 붕괴를 방지합니다.
- 디코더를 통한 품질: 기존의 디코더는 이미지 품질 생성기 (precision) 역할을 합니다.
$T=1$에서의 디코더 공간의 저차원 투영 (PCA)은 클래스 간의 높은 시각적 분리도를 보여주며, 이는 목적 함수가 역학을 유도하여 유효한 디코더 입력 차원과 비교하여 저차원 공간에서 뚜렷렷한 클러스터를 생성하도록 유도함을 확인시켜 줍니다.