Un-0: 結合振動子による画像生成

Un-0: 結合振動子による画像生成

Un-0は、従来の深層ニューラルネットワーク層を、シミュレートされた結合Kuramoto振動子のシステムに置き換えた生成AIモデルです。物理法則、特に同期振動子のダイナミクスを活用することで、Un-0は現代のAIワークロードが物理的な基質上で実行可能であることを示しており、GPUベースの実行と比較してエネルギー消費を最大1,000倍削減できる可能性があります。

パフォーマンスとベンチマーク

Un-0は、class-conditional ImageNet 64×64において6.74のFID (Fréchet Inception Distance) を達成しました。このパフォーマンスは、BigGAN、iDDPM、WGAN-GPといった、発表当時の主要な従来の画像生成手法の品質に匹敵します。

モデルのスケーリングと結果

Un-0は、CIFAR-10およびImageNet 64×64に対して異なるスケールでテストされました。

ImageNet 64×64の結果:

Model Oscillator Count Total Parameters FID@50k
Un-0.n6656 6,656 57.17M 8.41
Un-0.n10240 10,240 129.80M 8.01
Un-0.n16384 16,384 322.44M 6.74

CIFAR-10の結果:

Model Oscillator Count Total Parameters FID@50k
Un-0.n1024 1,024 1.29M 11.01
Un-0.n2048 2,048 4.94M 9.32
Un-0.n4096 4,096 19.43M 8.76

Un-0は、小規模モデルにおいてPareto frontierを拡大しますが、パラメータ数に対する品質の向上速度が従来の境界よりも遅いため、現在は大規模スケールにおいてEDMやGDDといった最先端の従来のベースラインに遅れをとっています。

Un-0の仕組み: 生成の物理学

Un-0はKuramotoモデルを利用しています。ここでは、それぞれが固有の周波数を持つ振動子の集団が、学習可能な結合行列を介して他の振動子と結合しています。システムは、各振動子の位相が隣接する振動子の引き込みによって変化する常微分方程式 (ODE) に従って進化します。

推論プロセス

画像生成は、以下の5つのステップのパイプラインに従います。

  1. ランダムな初期化: すべての振動子の位相はランダムな角度に設定され、シードとして機能します(拡散モデルにおけるノイズに似ています)。
  2. クラス条件付け: 小さな振動子グループが要求されたクラスを駆動し、メインの集団をクラスに関連する配置へと偏らせます。
  3. 物理的な実行: システムは時間の経過とともに進化し、振動子は学習された結合強度に基づいて互いに引き合います。
  4. スナップショット: 指定された時間 $T$ において、すべての振動子の位相が潜在表現として記録されます。
  5. レンダリング: 従来のデコーダー(全モデルパラメータの13%未満で構成)が、これらの潜在表現を最終的なピクセルに変換します。

学習可能なパラメータ

学習は、主に以下の3つの要素に焦点を当てています。

  • 結合行列 $K$ (振動子がどのように相互作用するか)。
  • 各振動子の固有の周波数 $\omega_i$。
  • 従来のデコーダーの重み。

アブレーション解析: 計算の帰属

物理的なダイナミクスが実際の計算を行っているのか、それともデコーダーが主要な役割を果たしているのかを判断するために、Unconventional AIはいくつかの数値を検証しました。

  • Decoder Only: ダイナミクスなしでデコーダーのみを学習。これは最も低いパフォーマンスとなり、デコーダーが生のノイズをターゲット画像にマッピングすることに苦労していることを示しています。
  • Reservoir: ダイナミクス的な重みをランダムな初期化に固定。これにより、デコーダーのみのベースラインよりもパフォーマンスが向上し、これはランダムなダイナミクスがデコーダーに対してより分離可能な入力を提供することを示唆しています。 n- Time Delta: 積分ステップ数の変化。学習されたダイナミクスを持つモデルで、より多くの積分ステップ(例:10ステップ)を用いた場合、reservoirおよび1ステップの学習済みモデルの両方を大幅に上回りました。

これらの結果は、Un-0が非線形ダイナミクスを用いて計算を行っており、学習されたダイナミクスはランダムなreservoirダイナミクスよりもモデルサイズの減少に対して堅牢であることを示しています。

ダイナミクス解析: 多様性 vs. 品質

モデルの挙動の分析により、物理的な基質と従来のコンポーネントの間の機能的な分離が明らかになりました。

  • Dynamics for Diversity: Kuramotoシステムは、画像の多様性 (recall) を維持する役割を担っています。学習されたネットワークは、クラスの多様体 (manifold) に沿って整列することで、時間の経過とともに多様性を測定可能なレベルで増加させ、学習されていない reservoir が見られる多様性の崩壊を防ぎます。
  • Decoder for Quality: 従来のデコーダーは、画像品質の生成器 (precision) として機能します。

$T=1$ におけるデコーダー空間の低次元投影 (PCA) は、クラス間の高い視覚的分離性を示しており、これは目的関数が、デコーダーの有効な入力次元数に対して、低次元空間において明確な異なるクラスターを作成するようにダイナミクスを駆動していることを裏付けています。

Sources