Un-0: 使用耦合振子生成图像

Un-0 是一种生成式 AI 模型，它使用模拟的耦合 Kuramoto 振子系统取代了传统的深度神经网络层。通过利用物理定律——特别是同步振子的动力学——Un-0 表明现代 AI 工作负载可以在物理基质上执行，与基于 GPU 的执行相比，能耗潜力可降低高达 1,000 倍。

性能与基准测试

Un-0 在类别条件 ImageNet 64×64 上实现了 6.74 的 FID (Fréchet Inception Distance)。这一性能达到了当时几种领先的传统图像生成方法（如 BigGAN、iDDPM 和 WGAN-GP）在初始发布时的质量水平。

Un-0 在 CIFAR-10 和 ImageNet 64×64 的不同规模下进行了测试：

ImageNet 64×64 结果：

Model	Oscillator Count	Total Parameters	FID@50k
Un-0.n6656	6,656	57.17M	8.41
Un-0.n10240	10,240	129.80M	8.01
Un-0.n16384	16,384	322.44M	6.74

CIFAR-10 结果：

Model	Oscillator Count	Total Parameters	FID@50k
Un-0.n1024	1,024	1.29M	11.01
Un-0.n2048	2,048	4.94M	9.32
Un-0.n4096	4,096	19.43M	8.76

虽然 Un-0 在扩展小模型帕累托前沿方面表现出色，但由于其质量随参数数量增加的提升速度慢于传统前沿模型，目前在大规模下仍落后于 EDM 和 GDD 等最先进的传统基准模型。

Un-0 利用 Kuramoto 模型，其中一群具有自然频率的振子通过可学习的耦合矩阵相互耦合。系统根据常微分方程 (ODE) 进行演化，每个振子的相位都会受到其邻居拉力的影响。

生成图像遵循五个步骤的流水线：

训练重点在于三个主要组件：

为了确定物理动力学是在执行实际计算，还是解码器在承担重任，Unconventional AI 进行了几项消融实验：

Decoder Only： 在没有任何动力学的情况下训练解码器。这导致了最差的性能，表明解码器难以将原始噪声映射到目标图像。
Reservoir： 将动力学权重固定为随机初始化。这提高了性能，优于解码器仅有的基准，这表明随机动力学为解码器提供了更具可分性的输入。
Time Delta： 改变积分步长。具有学习到的动力学且具有更多积分步长（例如 10 步）的模型，其表现显著优于 Reservoir 和 1 步学习模型。

这些结果表明，Un-0 使用非线性动力学进行计算，并且训练后的动力学比随机 Reservoir 动力学在面对模型规模减小时更具鲁棒性。

对模型行为的分析揭示了物理基质与传统组件之间的功能分工：

动力学负责多样性： Kuramoto 系统负责保持图像多样性（召回率）。随着训练网络与类别流形对齐，训练后的网络会随时间可测量地增加多样性，防止了未训练的 Reservoir 动力学中出现的多样性崩溃。
Decoder 负责质量： 传统解码器充当图像质量生成器（精确度）。

在 $T=1$ 时解码器空间的低维投影 (PCA) 显示了类别之间极高的视觉可分性，这证实了目标函数驱动动力学在相对于有效解码器输入维度的情况下，在低维空间中创建了不同的簇。