범주론 기반 딥러닝: AI를 연금술에서 과학으로 옮기기

범주론 기반 딥러닝: AI를 연금술에서 과학으로 옮기기

LLM 추론의 근본적인 실패

대형 언어 모델(LLM)은 현재 큰 수를 더하거나 물리 법칙을 따르는 등 기본적인 알고리즘 작업에 어려움을 겪고 있습니다. 이는 모델이 내부 논리를 내재화하기보다 패턴 인식에 의존하기 때문입니다. 긴 덧셈 문제에서 한 자리만 바꾸는 등 패턴이 약간 변하면, 모델은 "자리 올림"과 같은 이산 연산을 수행할 내부 메커니즘이 없기 때문에 종종 실패합니다.

도구 사용(예: LLM을 계산기에 연결)으로 일시적인 해결책을 제공할 수는 있지만, 이는 구조적 불일치를 해결하지 못합니다. 외부 도구에 의존하는 것은 반복적인 계산이 필요한 복잡한 추론 문제에 비효율적이며, 모델이 해당 도구에 대한 올바른 입력을 스스로 예측하는 능력을 향상시키지 못합니다. 진정한 추론과 과학적 능력을 달성하려면 AI가 이러한 계산 규칙을 자체 아키텍처 안에 내재화해야 합니다.

기하학적 딥러닝에서 범주론으로

기하학적 딥러닝(GDL)은 대칭 변환에 대한 등변성(equivariance) 을 도입함으로써 AI를 개선했습니다. 이는 입력이 무관한 방식으로 변형될 때(예: 이미지에서 고양이를 이동하거나 그래프의 노드를 순열하는 경우) 출력이 예측 가능하게 동일하게 유지된다는 것을 보장합니다. 이 접근법은 학습에 필요한 데이터 양을 기하급수적으로 감소시킵니다.

하지만 GDL에는 두 가지 주요 제한이 있습니다:

  1. 가역성 요구: GDL은 일반적으로 대칭이 가역적이라고 가정합니다(예: 노드를 원래 순서로 되돌릴 수 있음). 실제 세계의 계산은 종종 정보를 파괴합니다(예: 다익스트라와 같은 경로 탐색 알고리즘은 여러 그래프를 하나의 최단 경로로 압축). 이는 가역적이지 않습니다.
  2. 대칭의 범위: GDL의 기반인 군론은 공간적 규칙성에는 뛰어나지만, 입력이 특정 전제조건을 만족해야만 후조건을 생성하는 일반적인 알고리즘 계산을 설명하기에는 부족합니다.

범주론은 이러한 제한을 해결하기 위한 해결책으로 제안됩니다. 범주를 "색이 있는 대수"로 취급함으로써, 구성 요소가 "색"(형식)이 일치할 때만 연결될 수 있는 부분적 합성을 허용합니다. 이는 가역적이지 않은 과정과 복잡한 계산 파이프라인을 모델링하는 데 군론보다 유연한 프레임워크를 제공합니다.

딥러닝의 "연금술"과 이론의 필요성

현대 딥러닝은 현재 "연금술" 단계에 있습니다: 실무자들은 즉흥적인 설계 선택, 파라미터 조정, 트윅을 통해 강력한 결과를 얻지만, 이러한 선택이 왜 작동하는지 혹은 새로운 아키텍처를 공식적으로 도출하는 방법을 설명하는 통합 이론이 부족합니다.

범주론 기반 딥러닝은 신경망을 위한 "주기율표"가 되고자 하며, 시행착오에서 원칙에 기반한 엔지니어링으로 이동하기 위한 체계적인 가이드를 제공합니다. 이 프레임워크는 여러 이질적인 관점을 하나로 통합하려 합니다:

  • 확률적 관점
  • 신경과학적 관점
  • 기울기 기반 반복 업데이트

AI에서 합성 수학 vs. 해석 수학

이 프레임워크를 구축하기 위해 연구자들은 두 가지 수학적 접근을 구분합니다:

  • 해석 수학: 사물이 무엇으로 이루어졌는지에 초점을 맞춥니다(예: 데카르트의 직선은 방정식의 해 집합). 모든 것이 구축되는 공통 기반을 필요로 합니다.
  • 합성 수학: 사물이 어떻게 행동하고 서로 관계되는지에 초점을 맞춥니다(예: 유클리드의 직선은 두 점 사이의 관계로 정의). 접근할 수 없는 세부사항(노이즈)을 무시하고 추론 원칙에 집중합니다.

범주론 기반 딥러닝은 구조주의/합성 접근을 채택합니다. 신경망의 내부 "물질"에 집중하기보다 표현들 사이의 구조 보존 사상에 집중합니다.

네트워크 설계에서의 고급 범주론 개념

가중치 공유와 2-범주

가중치 공유는 계산의 여러 부분이 동일한 파라미터를 공유할 때 발생합니다(예: 순환 신경망). 범주론은 이를 2-범주를 통해 공식화된 방식으로 정당화합니다. 일반 범주는 객체 간 관계(사상)를 설명하지만, 2-범주는 그 사상들 간의 관계(2-사상)를 설명합니다. 이 맥락에서 2-사상은 재파라미터화와 가중치 공유를 모델링할 수 있어, 언제 가중치 공유가 의도된 구조를 보존하는지 증명할 수 있게 합니다.

재귀와 폴드

함수형 프로그래밍에서 리스트와 같은 데이터 타입은 재귀적으로 정의됩니다. 범주론적으로 이는 엔도펀터에 대한 대수로 바라볼 수 있습니다. 리스트를 소비하는 과정("폴드")은 이 대수로부터의 동형사상입니다. 신경망 층을 동일한 엔도펀터에 대한 대수 사이의 동형사상으로 보면, 프레임워크는 재귀와 리스트와 같은 처리를 자연스럽게 표현할 수 있습니다.

"자리 올림" 문제와 홉프 섬유화

그래프 신경망(GNN)의 가장 기본적인 실패 중 하나는 "자리 올림" 연산을 처리하지 못한다는 점입니다(예: 덧셈에서). 이산 수학에서 자리 올림은 단순한 트리거이지만, 신경망이 사용하는 연속 수학에서는 상태 자체보다 상태의 변화에 정보가 담겨 있기 때문에 구현이 매우 어렵습니다.

연구자들은 이 현상이 **홉프 섬유화(Hopf Fibrations)**와 같은 복합 기하학적 구조를 이용해 모델링될 수 있다고 제안합니다—4차원 공간의 3차원 구가 2차원 구에 투사되는 형태입니다. 이러한 기하학적 미묘함은 신경망이 진정한 알고리즘적 추론에 필요한 "자리 올림" 논리를 구현하도록 도와, 사실상 "신경망 속의 CPU"를 구축할 가능성을 열어줍니다.


요약: 연구자들은 범주론을 딥러닝의 통합 수학적 프레임워크로 제안하여, 경험적 시행착오를 넘어 알고리즘적 추론과 구조적 논리를 신경망이 내재화하도록 목표합니다.

제목: 범주론 기반 딥러닝: AI를 연금술에서 과학으로 옮기기

Sources