Un-0: 使用耦合振盪器生成圖像

Un-0: 使用耦合振盪器生成圖像

Un-0 是一種生成式 AI 模型,它將傳統的深度神經網路層替換為模擬的耦合 Kuramoto 振盪器系統。透過利用物理定律——特別是同步振盪器的動力學——Un-0 展示了現代 AI 工作負載可以在物理基質上執行,與基於 GPU 的執行相比,潛在能耗可降低高達 1,000 倍。

性能與基準測試

Un-0 在 class-conditional ImageNet 64×64 上實現了 6.74 的 FID (Fréchet Inception Distance)。此性能與當時發布的幾種領先的傳統圖像生成方法(如 BigGAN、iDDPM 和 WGAN-GP)的品質相當。

模型縮放與結果

Un-0 在 CIFAR-10 和 ImageNet 64×64 的不同規模下進行了測試:

ImageNet 64×64 結果:

Model Oscillator Count Total Parameters FID@50k
Un-0.n6656 6,656 57.17M 8.41
Un-0.n10240 10,240 129.80M 8.01
Un-0.n16384 16,384 322.44M 6.74

CIFAR-10 結果:

Model Oscillator Count Total Parameters FID@50k
Un-0.n1024 1,024 1.29M 11.01
Un-0.n2048 2,048 4.94M 9.32
Un-0.n4096 4,096 19.43M 8.76

雖然 Un-0 在擴展小型模型的 Pareto 前沿時表現出色,但目前在大規模下落後於 EDM 和 GDD 等最先進的傳統基準模型,因為其品質隨著參數數量的增加而提升的速度比傳統前沿慢。

Un-0 如何運作:生成的物理學

Un-0 利用了 Kuramoto 模型,其中一群具有自然頻率的振盪器透過可學習的耦合矩陣與其他振盪器耦合。系統根據常微分方程 (ODE) 進行演化,每個振盪器的相位會受到鄰居拉力的影響而產生偏移。

推論過程

生成圖像遵循五步流程:

  1. 隨機初始化: 每個振盪器的相位都被設置為一個隨機角度,作為種子(類似於擴散模型中的雜訊)。
  2. 類別條件化: 一組較小的振盪器群組驅動所要求的類別,使主群體向與該類別相關的排列方式偏移。
  3. 物理執行: 系統隨時間演化,振盪器根據訓練好的耦合強度互相拉動。
  4. 快照: 在指定的時間 $T$,所有振盪器的相位被記錄為潛在表示 (latent representation)。
  5. 渲染: 傳統的解碼器 (decoder)(佔總模型參數的不到 13%)將這些潛在表示轉換為最終的像素。

可學習參數

訓練重點在於三個主要組成部分:

  • 耦合矩陣 $K$(振盪器如何互動)。
  • 每個振盪器的自然頻率 $\omega_i$。
  • 傳統解碼器的權重。

消融分析:歸因計算

為了確定物理動力學是否在進行實際的計算,或者解碼器是否承擔了大部分工作,Unconventional AI 進行了幾項消融實驗:

  • Decoder Only: 在沒有任何動力學的情況下訓練解碼器。這導致了最差的性能,顯示解碼器難以將原始雜訊映射到目標圖像。
  • Reservoir: 將動力學權重固定為隨機初始化。這改善了基於 Decoder Only 的基準,顯示隨機動力學為解碼器提供了更具可分性的輸入。
  • Time Delta: 改變積分步數。具有學習動力學且具有更多積分步數(例如 10 步)的模型,其表現顯著優於 Reservoir 和 1 步學習模型。

這些結果表明,Un-0 使用非線性動力學進行計算,並證明訓練後的動力學比隨機 Reservoir 動力學在模型縮放時更具魯棒性。

動力學分析:多樣性 vs. 品質

對模型行為的分析揭示了物理基質與傳統組件之間的職能分工:

  • Dynamics for Diversity: Kuramoto 系統負責保持圖像的多樣性 (recall)。訓練後的網路會隨著時間推移與類別流形 (class manifold) 對齊,從而可量量地增加多樣性,防止了未經訓練的 Reservoir 中常見的多樣性崩塌。
  • Decoder for Quality: 傳統解碼器充當圖像品質的生成器 (precision)。

在 $T=1$ 時解碼器空間的低維投影 (PCA) 顯示類別之間具有高度的視覺可分性,這證實了目標函數驅動動力學在相對於有效解碼器輸入維度時,在低維空間中創造了獨特的簇 (clusters)。

Sources