類別深度學習：將 AI 從鍊金術推向科學

大型語言模型推理的根本失敗

大型語言模型（LLM）目前在基本的演算法任務上掙扎，例如加大數或遵守物理定律，因為它們依賴於模式辨識而非內化底層邏輯。當模式稍有變動——例如在長加法題目中改變一個位數——模型往往會失敗，因為它缺乏執行「進位」等離散運算的內部機制。

雖然使用工具（例如將 LLM 連接到計算機）能提供暫時的解決方案，但這並未解決架構上的不匹配。依賴外部工具對於需要迭代計算的複雜推理問題效率低下，且無法提升模型自行預測正確輸入給這些工具的內在能力。要實現真正的推理與科學能力，AI 必須在自身架構中內化這些計算規則。

從幾何深度學習到範疇理論

幾何深度學習（GDL）透過引入 對稱變換的等變性 改善了 AI。這確保了若輸入以無關方式被變換（例如在影像中平移貓或在圖中置換節點），輸出仍能可預測地保持相同。此方法指數性地減少了訓練所需的資料量。

然而，GDL 有兩大主要限制：

可逆性需求： GDL 通常假設對稱是可逆的（例如可以將節點置換回原始順序）。現實世界的計算常常會破壞資訊（例如 Dijkstra 演算法會將許多不同的圖壓縮成單一的最短路徑），因此不可逆。
對稱範圍： 群論作為 GDL 的基礎，對空間規律描述得很好，但不足以描述一般的演算法計算，因為在此情況下輸入必須滿足特定的前提條件才能產生後置條件。

範疇理論 被提出作為解決這些限制的方案。將範疇視為「帶顏色的代數」使得部分組合性得以實現——只有當組件的「顏色」（類型）相匹配時才能連接。這提供了比群論更靈活的框架，以建模不可逆過程與複雜的計算管線。

深度學習的「鍊金術」與理論的需求

現代深度學習正處於一個「鍊金術」階段：實踐者透過臨時的設計選擇、調整與微調取得強大成果，卻缺乏統一的理論來說明這些選擇為何有效，或如何正式推導出新架構。

類別深度學習 旨在成為神經網路的「元素週期表」，提供系統化的指南，將試錯法轉變為原則化工程。此框架試圖統合多種分散的觀點：

機率觀點
神經科學觀點
基於梯度的迭代更新

AI 中的合成數學 vs. 解析數學

為了構建此框架，研究者區分了兩種數學方法：

解析數學： 著重於事物的本質（例如笛卡爾將直線視為方程式的解集合）。它需要一個共同的基礎，從中建構一切。
合成數學： 著重於事物的行為與相互關係（例如歐幾里得以兩點之間的關係定義直線）。它忽略不可及的細節（噪音），聚焦於推理原則。

類別深度學習採取 結構主義/合成 方法。它不關注神經網路的內部「實質」，而是關注表示之間保持結構的映射。

網路設計中的進階範疇概念

權重共享與 2-範疇

權重共享發生在計算的多個部分使用相同參數時（例如在循環神經網路中）。範疇理論提供了一種正式的方式透過 2-範疇 來說明這點。標準範疇描述物件之間的關係（態射），而 2-範疇描述這些態射之間的關係（2-態射）。在此情境下，2-態射可模擬重新參數化與權重共享，讓研究者能證明何時權重共享保留了預期的結構。

遞迴與折疊

在函數式程式設計中，列表等資料型別是遞迴定義的。範疇上，這被視為一個自同函子（endofunctor）的代數。消耗列表的過程（「折疊」）是一個從此代數到另一代數的同態映射。將神經網路層視為同樣自同函子代數之間的同態，框架即可自然表達遞迴與類列表的處理。

「進位」問題與 Hopf 纖維化

圖神經網路（GNN）最基本的失敗之一是無法處理「進位」操作（例如加法中的進位）。在離散數學中，進位是一個簡單的觸發器；在連續數學（神經網路使用的）中，實作卻相當困難，因為資訊往往存在於狀態的變化而非狀態本身。

研究者提出，這種行為或可透過複雜的幾何結構如 Hopf 纖維化 來建模——在四維空間中的三維球面投射到二維球面。這種幾何微妙性可能讓神經網路實作真正的「進位」邏輯，從而在神經網路中構建「CPU」，實現真正的演算法推理。

摘要：研究者提出以範疇理論作為深度學習的統一數學框架，旨在超越經驗式的試錯法，使神經網路能內化演算法推理與結構邏輯。

標題：類別深度學習：將 AI 從鍊金術推向科學

類別深度學習：將 AI 從鍊金術推向科學

類別深度學習：將 AI 從鍊金術推向科學

大型語言模型推理的根本失敗

從幾何深度學習到範疇理論

深度學習的「鍊金術」與理論的需求

AI 中的合成數學 vs. 解析數學

網路設計中的進階範疇概念

權重共享與 2-範疇

遞迴與折疊

「進位」問題與 Hopf 纖維化

Sources