カテゴリ的深層学習:AI を錬金術から科学へ

カテゴリ的深層学習:AI を錬金術から科学へ

LLM 推論の根本的な失敗

大規模言語モデル(LLM)は、巨大な数の加算や物理法則の遵守といった基本的なアルゴリズム課題に苦労しています。これは、内部で論理を取り込むのではなく、パターン認識に依存しているためです。長い加算問題で 1 桁だけが変わるといったようにパターンが僅かに変化しただけで、モデルは「繰り上げ」を行うような離散的操作を内部に持っていないために失敗しがちです。

ツールの使用(例:LLM を電卓に接続する)は一時的な対策にはなりますが、根本的なアーキテクチャの不整合を解決するものではありません。外部ツールに依存することは、反復的計算を要する複雑な推論問題に対して非効率であり、ツールに対して正しい入力を予測するモデル本来の能力を向上させません。真の推論と科学的能力を実現するためには、AI がこれらの計算規則を自身のアーキテクチャ内に内在化しなければなりません。

幾何学的深層学習から圏論へ

幾何学的深層学習(GDL)は 対称変換への等変性 を導入することで AI を改善しました。これにより、入力が無関係な方法で変換されても(例:画像中の猫を平行移動したり、グラフのノードを置換したり)出力が予測可能に同じままになることが保証され、学習に必要なデータ量が指数的に削減されます。

しかし、GDL には二つの主要な制限があります。

  1. 可逆性の要件:GDL は通常、対称性が可逆であること(例:ノードの置換を元の順序に戻せる)を前提とします。実世界の計算はしばしば情報を失います(例:ダイクストラ法のような最短経路探索は多数の異なるグラフを単一の最短経路に圧縮する)。このため非可逆的です。
  2. 対称性の範囲:GDL の基礎である群論は空間的規則性の記述には優れていますが、入力が特定の前提条件を満たし、結果として後条件を生むような汎用的なアルゴリズム計算を記述するには不十分です。

圏論 はこれらの制限への解決策として提案されます。圏を「色付き代数」とみなすことで、部分的な合成性(コンポーネントは「色」(型)が合致するときだけ結合できる)を可能にし、群論よりも柔軟に非可逆プロセスや複雑な計算パイプラインをモデル化できます。

深層学習の「錬金術」そして理論の必要性

現代の深層学習は「錬金術」段階にあります。実務家は経験則やハイパーパラメータの調整で強力な成果を上げていますが、なぜそれらが機能するのか、あるいは新たなアーキテクチャを形式的に導出する統一理論が欠如しています。

カテゴリ的深層学習 はニューラルネットワークの「周期表」になることを目指し、試行錯誤から原理的なエンジニアリングへと移行する体系的ガイドを提供します。この枠組みは以下のような多様な視点を統合しようとします。

  • 確率的視点
  • 神経科学的視点
  • 勾配に基づく反復更新

AI における合成数学と解析数学

この枠組みを構築するために、研究者は二つの数学的アプローチを区別します。

  • 解析数学:ものが何からできているかに焦点を当てます(例:デカルトの直線は方程式の解集合)。すべてが構築される共通の基盤を必要とします。
  • 合成数学:ものがどのように振る舞い、相互に関係するかに焦点を当てます(例:ユークリッドの直線は二点間の関係で定義)。アクセスできない詳細(ノイズ)を無視し、推論の原理に注目します。

カテゴリ的深層学習は 構造主義的/合成的 アプローチを採用します。ニューラルネットワークの内部「実体」ではなく、表現間の構造保存写像に注目するのです。

ネットワーク設計における高度な圏論概念

重み共有と 2-圏

重み共有は、計算の複数部分が同一パラメータを共有する場合に起こります(例:リカレントニューラルネットワーク)。圏論は 2-圏 を通じてこれを形式的に正当化します。標準的な圏が対象(オブジェクト)間の射(モルフィズム)を記述するのに対し、2-圏はその射間の射(2-モルフィズム)を記述します。この文脈で 2-モルフィズムは再パラメータ化や重み共有をモデル化し、重み共有が意図した構造を保持する条件を証明できるようにします。

再帰と折りたたみ(fold)

関数型プログラミングでは、リストなどのデータ型は再帰的に定義されます。圏論的にはこれはエンドファンクターの代数として捉えられます。リストを消費する操作(「fold」)はこの代数からのホモモルフィズムです。ニューラルネットワーク層を同一エンドファンクターの代数間のホモモルフィズムとみなすことで、再帰やリスト様処理を自然に表現できます。

「繰り上げ」問題とホップ・ファイバリング

グラフニューラルネットワーク(GNN)の最も基本的な失敗例の一つは、加算における「繰り上げ」操作を扱えないことです。離散数学では繰り上げは単純なトリガーですが、ニューラルネットワークが用いる連続数学では情報がしばしば状態の変化に宿り、状態そのものに現れません。そのため実装が極めて困難です。

研究者はこの振る舞いを ホップ・ファイバリング のような複雑な幾何学構造でモデル化できると示唆しています。4 次元空間の 3 次元球面を 2 次元球面に射影するこの幾何学的微妙さは、ニューラルネットワークが真のアルゴリズム的推論に必要な「繰り上げ」ロジックを実装する手段となり得ます。すなわち「ニューラルネットワーク内の CPU」を構築する可能性です。


要約

研究者は、深層学習の統一的数学的枠組みとして圏論を提案し、経験的な試行錯誤を超えてニューラルネットワークがアルゴリズム的推論と構造的論理を内部化できるようにすることを目指しています。

Sources