类别深度学习:将 AI 从炼金术转向科学
类别深度学习:将 AI 从炼金术转向科学
大语言模型推理的根本失败
大型语言模型(LLM)目前在基本算法任务上表现不佳,例如大数相加或遵守物理定律,因为它们依赖模式识别而非内化底层逻辑。当模式稍有改变——比如在一个长加法题中更改一个数字——模型往往会失败,因为它缺乏执行离散操作(如“进位”)的内部机制。
虽然使用工具(例如将 LLM 连接到计算器)可以提供临时解决方案,但这并未解决架构上的错位。依赖外部工具对于需要迭代计算的复杂推理问题效率低下,也无法提升模型自身预测这些工具正确输入的能力。要实现真正的推理和科学能力,AI 必须在其自身架构中内化这些计算规则。
从几何深度学习到范畴理论
几何深度学习(GDL)通过引入 对称变换的等变性 改进了 AI。这确保了如果输入以无关的方式被变换(例如在图像中平移一只猫或在图中置换节点),输出仍会可预测地保持不变。这种方法指数级降低了训练所需的数据量。
然而,GDL 有两个主要局限:
- 可逆性要求: GDL 通常假设对称性是可逆的(例如可以将节点置换回原始顺序)。现实世界的计算常常会丢失信息(例如 Dijkstra 路径寻找算法会把许多不同的图压缩为一条最短路径),因此不可逆。
- 对称范围: 群论是 GDL 的基础,擅长描述空间规律,但不足以描述通用算法计算,其中输入必须满足特定前提条件才能产生后置条件。
范畴理论 被提出作为解决这些局限的方案。通过将范畴视为“带颜色的代数”,它允许部分组合性——只有当组件的“颜色”(类型)匹配时才能链接。这为建模不可逆过程和复杂计算流水线提供了比群论更灵活的框架。
深度学习的“炼金术”与理论需求
现代深度学习目前处于一种“炼金术”阶段:实践者通过临时的设计选择、调参和技巧取得强大成果,却缺乏统一的理论来解释这些选择为何有效或如何正式推导新架构。
类别深度学习 旨在成为神经网络的“元素周期表”,提供系统化指南,使人们从试错走向原理化工程。该框架试图统一以下几个看似分离的视角:
- 概率视角
- 神经科学视角
- 基于梯度的迭代更新
AI 中的合成数学 vs. 分析数学
为了构建此框架,研究者区分了两种数学方法:
- 分析数学: 关注事物的本质组成(例如笛卡尔把直线视为方程的解集)。它需要一个共同的基础,从中构建一切。
- 合成数学: 关注事物的行为及相互关系(例如欧几里得把直线定义为两点之间的关系)。它忽略不可达的细节(噪声),专注于推理原则。
类别深度学习采用 结构主义/合成 方法。它不关注神经网络的内部“实体”,而是关注表示之间保持结构的映射。
网络设计中的高级范畴概念
权重共享与 2-范畴
权重共享指多个计算部分使用相同参数(例如循环神经网络中的共享权重)。范畴理论提供了一种通过 2-范畴 正式化这种现象的方法。标准范畴描述对象之间的关系(态射),而 2-范畴描述这些态射之间的关系(2-态射)。在此语境下,2-态射可以建模重新参数化和权重共享,从而让研究者证明何时权重共享保持预期结构。
递归与折叠(Fold)
在函数式编程中,列表等数据类型是递归定义的。范畴上,这被视为一个自函子(endofunctor)的代数。对列表的消费过程(即“折叠”)是该代数的同态映射。通过将神经网络层视为同一自函子代数之间的同态,框架可以自然地表达递归和类列表的处理。
“进位”问题与 Hopf 纤维化
图神经网络(GNN)最基本的失败之一是无法处理“进位”操作(例如加法中的进位)。在离散数学中,进位是一个简单的触发器;而在神经网络使用的连续数学中,实现它异常困难,因为信息往往体现在状态的变化而非状态本身。
研究者提出,这种行为可以用复杂的几何结构如 Hopf 纤维化 来建模——即把四维空间中的 3 球投影到 2 球上。这种几何细微差别可能让神经网络实现真正算法推理所需的“进位”逻辑,进而在神经网络中构建“CPU”。
摘要:研究者提出使用范畴理论作为深度学习的统一数学框架,以摆脱经验性的试错方式,使神经网络能够内化算法推理和结构逻辑。
标题:类别深度学习:将 AI 从炼金术转向科学
Sources
- undefinedThe "Final Boss" of Deep Learning