類別深度學習:將 AI 從鍊金術推向科學
類別深度學習:將 AI 從鍊金術推向科學
大型語言模型推理的根本失敗
大型語言模型(LLM)目前在基本的演算法任務上掙扎,例如加大數或遵守物理定律,因為它們依賴於模式辨識而非內化底層邏輯。當模式稍有變動——例如在長加法題目中改變一個位數——模型往往會失敗,因為它缺乏執行「進位」等離散運算的內部機制。
雖然使用工具(例如將 LLM 連接到計算機)能提供暫時的解決方案,但這並未解決架構上的不匹配。依賴外部工具對於需要迭代計算的複雜推理問題效率低下,且無法提升模型自行預測正確輸入給這些工具的內在能力。要實現真正的推理與科學能力,AI 必須在自身架構中內化這些計算規則。
從幾何深度學習到範疇理論
幾何深度學習(GDL)透過引入 對稱變換的等變性 改善了 AI。這確保了若輸入以無關方式被變換(例如在影像中平移貓或在圖中置換節點),輸出仍能可預測地保持相同。此方法指數性地減少了訓練所需的資料量。
然而,GDL 有兩大主要限制:
- 可逆性需求: GDL 通常假設對稱是可逆的(例如可以將節點置換回原始順序)。現實世界的計算常常會破壞資訊(例如 Dijkstra 演算法會將許多不同的圖壓縮成單一的最短路徑),因此不可逆。
- 對稱範圍: 群論作為 GDL 的基礎,對空間規律描述得很好,但不足以描述一般的演算法計算,因為在此情況下輸入必須滿足特定的前提條件才能產生後置條件。
範疇理論 被提出作為解決這些限制的方案。將範疇視為「帶顏色的代數」使得部分組合性得以實現——只有當組件的「顏色」(類型)相匹配時才能連接。這提供了比群論更靈活的框架,以建模不可逆過程與複雜的計算管線。
深度學習的「鍊金術」與理論的需求
現代深度學習正處於一個「鍊金術」階段:實踐者透過臨時的設計選擇、調整與微調取得強大成果,卻缺乏統一的理論來說明這些選擇為何有效,或如何正式推導出新架構。
類別深度學習 旨在成為神經網路的「元素週期表」,提供系統化的指南,將試錯法轉變為原則化工程。此框架試圖統合多種分散的觀點:
- 機率觀點
- 神經科學觀點
- 基於梯度的迭代更新
AI 中的合成數學 vs. 解析數學
為了構建此框架,研究者區分了兩種數學方法:
- 解析數學: 著重於事物的本質(例如笛卡爾將直線視為方程式的解集合)。它需要一個共同的基礎,從中建構一切。
- 合成數學: 著重於事物的行為與相互關係(例如歐幾里得以兩點之間的關係定義直線)。它忽略不可及的細節(噪音),聚焦於推理原則。
類別深度學習採取 結構主義/合成 方法。它不關注神經網路的內部「實質」,而是關注表示之間保持結構的映射。
網路設計中的進階範疇概念
權重共享與 2-範疇
權重共享發生在計算的多個部分使用相同參數時(例如在循環神經網路中)。範疇理論提供了一種正式的方式透過 2-範疇 來說明這點。標準範疇描述物件之間的關係(態射),而 2-範疇描述這些態射之間的關係(2-態射)。在此情境下,2-態射可模擬重新參數化與權重共享,讓研究者能證明何時權重共享保留了預期的結構。
遞迴與折疊
在函數式程式設計中,列表等資料型別是遞迴定義的。範疇上,這被視為一個自同函子(endofunctor)的代數。消耗列表的過程(「折疊」)是一個從此代數到另一代數的同態映射。將神經網路層視為同樣自同函子代數之間的同態,框架即可自然表達遞迴與類列表的處理。
「進位」問題與 Hopf 纖維化
圖神經網路(GNN)最基本的失敗之一是無法處理「進位」操作(例如加法中的進位)。在離散數學中,進位是一個簡單的觸發器;在連續數學(神經網路使用的)中,實作卻相當困難,因為資訊往往存在於狀態的變化而非狀態本身。
研究者提出,這種行為或可透過複雜的幾何結構如 Hopf 纖維化 來建模——在四維空間中的三維球面投射到二維球面。這種幾何微妙性可能讓神經網路實作真正的「進位」邏輯,從而在神經網路中構建「CPU」,實現真正的演算法推理。
摘要: 研究者提出以範疇理論作為深度學習的統一數學框架,旨在超越經驗式的試錯法,使神經網路能內化演算法推理與結構邏輯。
標題: 類別深度學習:將 AI 從鍊金術推向科學
Sources
- undefinedThe "Final Boss" of Deep Learning