Un-0: 使用耦合振盪器生成圖像

Un-0 是一種生成式 AI 模型，它將傳統的深度神經網路層替換為模擬的耦合 Kuramoto 振盪器系統。透過利用物理定律——特別是同步振盪器的動力學——Un-0 展示了現代 AI 工作負載可以在物理基質上執行，與基於 GPU 的執行相比，潛在能耗可降低高達 1,000 倍。

性能與基準測試

Un-0 在 class-conditional ImageNet 64×64 上實現了 6.74 的 FID (Fréchet Inception Distance)。此性能與當時發布的幾種領先的傳統圖像生成方法（如 BigGAN、iDDPM 和 WGAN-GP）的品質相當。

Un-0 在 CIFAR-10 和 ImageNet 64×64 的不同規模下進行了測試：

ImageNet 64×64 結果：

Model	Oscillator Count	Total Parameters	FID@50k
Un-0.n6656	6,656	57.17M	8.41
Un-0.n10240	10,240	129.80M	8.01
Un-0.n16384	16,384	322.44M	6.74

CIFAR-10 結果：

Model	Oscillator Count	Total Parameters	FID@50k
Un-0.n1024	1,024	1.29M	11.01
Un-0.n2048	2,048	4.94M	9.32
Un-0.n4096	4,096	19.43M	8.76

雖然 Un-0 在擴展小型模型的 Pareto 前沿時表現出色，但目前在大規模下落後於 EDM 和 GDD 等最先進的傳統基準模型，因為其品質隨著參數數量的增加而提升的速度比傳統前沿慢。

Un-0 利用了 Kuramoto 模型，其中一群具有自然頻率的振盪器透過可學習的耦合矩陣與其他振盪器耦合。系統根據常微分方程 (ODE) 進行演化，每個振盪器的相位會受到鄰居拉力的影響而產生偏移。

生成圖像遵循五步流程：

訓練重點在於三個主要組成部分：

為了確定物理動力學是否在進行實際的計算，或者解碼器是否承擔了大部分工作，Unconventional AI 進行了幾項消融實驗：

Decoder Only： 在沒有任何動力學的情況下訓練解碼器。這導致了最差的性能，顯示解碼器難以將原始雜訊映射到目標圖像。
Reservoir： 將動力學權重固定為隨機初始化。這改善了基於 Decoder Only 的基準，顯示隨機動力學為解碼器提供了更具可分性的輸入。
Time Delta： 改變積分步數。具有學習動力學且具有更多積分步數（例如 10 步）的模型，其表現顯著優於 Reservoir 和 1 步學習模型。

這些結果表明，Un-0 使用非線性動力學進行計算，並證明訓練後的動力學比隨機 Reservoir 動力學在模型縮放時更具魯棒性。

對模型行為的分析揭示了物理基質與傳統組件之間的職能分工：

Dynamics for Diversity： Kuramoto 系統負責保持圖像的多樣性 (recall)。訓練後的網路會隨著時間推移與類別流形 (class manifold) 對齊，從而可量量地增加多樣性，防止了未經訓練的 Reservoir 中常見的多樣性崩塌。
Decoder for Quality： 傳統解碼器充當圖像品質的生成器 (precision)。

在 $T=1$ 時解碼器空間的低維投影 (PCA) 顯示類別之間具有高度的視覺可分性，這證實了目標函數驅動動力學在相對於有效解碼器輸入維度時，在低維空間中創造了獨特的簇 (clusters)。