类别深度学习：将 AI 从炼金术转向科学

大语言模型推理的根本失败

大型语言模型（LLM）目前在基本算法任务上表现不佳，例如大数相加或遵守物理定律，因为它们依赖模式识别而非内化底层逻辑。当模式稍有改变——比如在一个长加法题中更改一个数字——模型往往会失败，因为它缺乏执行离散操作（如“进位”）的内部机制。

虽然使用工具（例如将 LLM 连接到计算器）可以提供临时解决方案，但这并未解决架构上的错位。依赖外部工具对于需要迭代计算的复杂推理问题效率低下，也无法提升模型自身预测这些工具正确输入的能力。要实现真正的推理和科学能力，AI 必须在其自身架构中内化这些计算规则。

从几何深度学习到范畴理论

几何深度学习（GDL）通过引入 对称变换的等变性 改进了 AI。这确保了如果输入以无关的方式被变换（例如在图像中平移一只猫或在图中置换节点），输出仍会可预测地保持不变。这种方法指数级降低了训练所需的数据量。

然而，GDL 有两个主要局限：

可逆性要求： GDL 通常假设对称性是可逆的（例如可以将节点置换回原始顺序）。现实世界的计算常常会丢失信息（例如 Dijkstra 路径寻找算法会把许多不同的图压缩为一条最短路径），因此不可逆。
对称范围： 群论是 GDL 的基础，擅长描述空间规律，但不足以描述通用算法计算，其中输入必须满足特定前提条件才能产生后置条件。

范畴理论 被提出作为解决这些局限的方案。通过将范畴视为“带颜色的代数”，它允许部分组合性——只有当组件的“颜色”（类型）匹配时才能链接。这为建模不可逆过程和复杂计算流水线提供了比群论更灵活的框架。

深度学习的“炼金术”与理论需求

现代深度学习目前处于一种“炼金术”阶段：实践者通过临时的设计选择、调参和技巧取得强大成果，却缺乏统一的理论来解释这些选择为何有效或如何正式推导新架构。

类别深度学习 旨在成为神经网络的“元素周期表”，提供系统化指南，使人们从试错走向原理化工程。该框架试图统一以下几个看似分离的视角：

概率视角
神经科学视角
基于梯度的迭代更新

AI 中的合成数学 vs. 分析数学

为了构建此框架，研究者区分了两种数学方法：

分析数学： 关注事物的本质组成（例如笛卡尔把直线视为方程的解集）。它需要一个共同的基础，从中构建一切。
合成数学： 关注事物的行为及相互关系（例如欧几里得把直线定义为两点之间的关系）。它忽略不可达的细节（噪声），专注于推理原则。

类别深度学习采用 结构主义/合成 方法。它不关注神经网络的内部“实体”，而是关注表示之间保持结构的映射。

网络设计中的高级范畴概念

权重共享与 2-范畴

权重共享指多个计算部分使用相同参数（例如循环神经网络中的共享权重）。范畴理论提供了一种通过 2-范畴 正式化这种现象的方法。标准范畴描述对象之间的关系（态射），而 2-范畴描述这些态射之间的关系（2-态射）。在此语境下，2-态射可以建模重新参数化和权重共享，从而让研究者证明何时权重共享保持预期结构。

递归与折叠（Fold）

在函数式编程中，列表等数据类型是递归定义的。范畴上，这被视为一个自函子（endofunctor）的代数。对列表的消费过程（即“折叠”）是该代数的同态映射。通过将神经网络层视为同一自函子代数之间的同态，框架可以自然地表达递归和类列表的处理。

“进位”问题与 Hopf 纤维化

图神经网络（GNN）最基本的失败之一是无法处理“进位”操作（例如加法中的进位）。在离散数学中，进位是一个简单的触发器；而在神经网络使用的连续数学中，实现它异常困难，因为信息往往体现在状态的变化而非状态本身。

研究者提出，这种行为可以用复杂的几何结构如 Hopf 纤维化 来建模——即把四维空间中的 3 球投影到 2 球上。这种几何细微差别可能让神经网络实现真正算法推理所需的“进位”逻辑，进而在神经网络中构建“CPU”。

摘要：研究者提出使用范畴理论作为深度学习的统一数学框架，以摆脱经验性的试错方式，使神经网络能够内化算法推理和结构逻辑。

标题：类别深度学习：将 AI 从炼金术转向科学

类别深度学习：将 AI 从炼金术转向科学

类别深度学习：将 AI 从炼金术转向科学

大语言模型推理的根本失败

从几何深度学习到范畴理论

深度学习的“炼金术”与理论需求

AI 中的合成数学 vs. 分析数学

网络设计中的高级范畴概念

权重共享与 2-范畴

递归与折叠（Fold）

“进位”问题与 Hopf 纤维化

Sources