Un-0: 使用耦合振子生成图像

Un-0: 使用耦合振子生成图像

Un-0 是一种生成式 AI 模型,它使用模拟的耦合 Kuramoto 振子系统取代了传统的深度神经网络层。通过利用物理定律——特别是同步振子的动力学——Un-0 表明现代 AI 工作负载可以在物理基质上执行,与基于 GPU 的执行相比,能耗潜力可降低高达 1,000 倍。

性能与基准测试

Un-0 在类别条件 ImageNet 64×64 上实现了 6.74 的 FID (Fréchet Inception Distance)。这一性能达到了当时几种领先的传统图像生成方法(如 BigGAN、iDDPM 和 WGAN-GP)在初始发布时的质量水平。

模型缩放与结果

Un-0 在 CIFAR-10 和 ImageNet 64×64 的不同规模下进行了测试:

ImageNet 64×64 结果:

Model Oscillator Count Total Parameters FID@50k
Un-0.n6656 6,656 57.17M 8.41
Un-0.n10240 10,240 129.80M 8.01
Un-0.n16384 16,384 322.44M 6.74

CIFAR-10 结果:

Model Oscillator Count Total Parameters FID@50k
Un-0.n1024 1,024 1.29M 11.01
Un-0.n2048 2,048 4.94M 9.32
Un-0.n4096 4,096 19.43M 8.76

虽然 Un-0 在扩展小模型帕累托前沿方面表现出色,但由于其质量随参数数量增加的提升速度慢于传统前沿模型,目前在大规模下仍落后于 EDM 和 GDD 等最先进的传统基准模型。

Un-0 的工作原理:生成的物理学

Un-0 利用 Kuramoto 模型,其中一群具有自然频率的振子通过可学习的耦合矩阵相互耦合。系统根据常微分方程 (ODE) 进行演化,每个振子的相位都会受到其邻居拉力的影响。

推理过程

生成图像遵循五个步骤的流水线:

  1. 随机初始化: 每个振子的相位都被设置为一个随机角度,作为种子(类似于扩散模型中的噪声)。
  2. 类别条件化: 一组较小的振子驱动请求的类别,使主群体向与类别相关的排列方式偏移。
  3. 物理执行: 系统随时间演化,振子根据训练好的耦合强度相互拉动。
  4. 快照: 在指定时间 $T$,记录所有振子的相位作为潜在表示。
  5. 渲染: 传统的解码器(占总模型参数的不到 13%)将这些潜在表示转换为最终像素。

可学习参数

训练重点在于三个主要组件:

  • 耦合矩阵 $K$(振子如何相互作用)。
  • 每个振子的自然频率 $\omega_i$。
  • 传统解码器的权重。

消融实验分析:归因计算

为了确定物理动力学是在执行实际计算,还是解码器在承担重任,Unconventional AI 进行了几项消融实验:

  • Decoder Only: 在没有任何动力学的情况下训练解码器。这导致了最差的性能,表明解码器难以将原始噪声映射到目标图像。
  • Reservoir: 将动力学权重固定为随机初始化。这提高了性能,优于解码器仅有的基准,这表明随机动力学为解码器提供了更具可分性的输入。
  • Time Delta: 改变积分步长。具有学习到的动力学且具有更多积分步长(例如 10 步)的模型,其表现显著优于 Reservoir 和 1 步学习模型。

这些结果表明,Un-0 使用非线性动力学进行计算,并且训练后的动力学比随机 Reservoir 动力学在面对模型规模减小时更具鲁棒性。

动力学分析:多样性 vs. 质量

对模型行为的分析揭示了物理基质与传统组件之间的功能分工:

  • 动力学负责多样性: Kuramoto 系统负责保持图像多样性(召回率)。随着训练网络与类别流形对齐,训练后的网络会随时间可测量地增加多样性,防止了未训练的 Reservoir 动力学中出现的多样性崩溃。
  • Decoder 负责质量: 传统解码器充当图像质量生成器(精确度)。

在 $T=1$ 时解码器空间的低维投影 (PCA) 显示了类别之间极高的视觉可分性,这证实了目标函数驱动动力学在相对于有效解码器输入维度的情况下,在低维空间中创建了不同的簇。

Sources