비정형 AI를 넘어선 확장: Axiom Math와 검증된 초지능으로 가는 길

비정형 AI를 넘어선 확장: Axiom Math와 검증된 초지능으로 가는 길

논지: 탁월함의 촉매제로서의 검증

형식적 검증(Formal verification)은 단순히 "lousiness"를 수정하거나 환각을 제거하기 위한 도구가 아닙니다. 그것은 초지능을 확장하고 복합적으로 성장시키기 위한 핵심 메커니즘입니다. 비정형 AI가 인간의 선호도와 확률적 판단에 의존하는 반면, 검증된 AI는 형식적 언어를 사용하여 AI가 자신의 탁월함을 확장할 수 있도록 하는 근거(ground truth)를 제공합니다. 이는 마치 엄격한 증명 작성이 라마누잔을 직관적인 천재에서 더욱 강력한 수학자로 변화시킨 것과 같습니다.

Axiom Math의 접근 방식과 Putnam 성공 사례

Axiom Math는 Action Prover라고 불리는 시스템을 활용합니다. 이는 Lean 데이터에 대해 강화 학습(RL)과 지도 미세 조정(SFT)을 사용하여 사후 학습된 모델들의 앙상블입니다. 이 접근 방식은 단순히 기존 출력물을 검증하는 것이 아니라, 검증된 생성(verified generation)에 초점을 맞춥니다.

Putnam 벤치마크

2025년 12월, Axiom의 시스템은 Putnam 시험에서 120/120이라는 만점을 기록하며, 역대 최고의 인간 성적(110점)과 DeepSeek와 같은 다른 선도적인 LLM(103점)을 모두 능가했습니다. 이 결과는 훨씬 적은 데이터를 가진 형식적 수학 시스템이 초인적 과업에서 비정형 LLM보다 뛰어난 성능을 보일 수 있음을 입증합니다.

Lean을 기반으로 한 토대

Lean은 함수형 프로그래밍 언어이자 정리 증명기(theorem prover)로, 증명을 프로그램으로 변환합니다(Curry-Howard 대응 관계를 통해). Axiom은 AI가 "tactics"를 통해 저수준의 논리적 연산을 처리할 수 있게 함으로써, 시스템이 고수준의 직관적 공간을 탐색할 수 있도록 하기 위해 Lean을 활용합니다.

수학적 발견 vs. 증명

Axiom은 **수학적 발견(mathematical discovery)**과 **형식적 증명(formal proof)**을 구분합니다. 증명은 최종 검증 단계이지만, 발견은 수학자들이 직관을 형성하기 위해 구성물, 수열, 또는 그래프를 찾는 사전 추측 단계입니다.

  • 발견 도구: Axiom은 이론가들이 형식적 증명을 시도하기 전에 반례나 구성물을 찾을 수 있도록(예: 30년 된 난제를 해결하는 등) 수학적 발견을 위한 코드베이스를 오픈 소스로 공개하고 있습니다.
  • 워크플로우: 이상적인 파이프라인은 비정형 추론기가 사양(specification)이나 추측을 제안하고, 형식적 증명기(Action Prover와 같은)가 증명을 실행하는 방식입니다.

검증된 AI를 위한 비즈니스 사례

2억 달러 규모의 Series A 투자와 1.6억 달러의 기업 가치 평가를 받은 Axiom의 시장 전략은 틈새 학술 수학 분야를 넘어, AI가 생성한 코드에 대한 "우선 거부권(right of first refusal)"이 필요한 모든 영역으로 확장됩니다.

고난도 검증 시장

특정 산업은 "대부분 검증된" 결과에 대해 무관용 원칙을 적용합니다:

  • 하드웨어 검증: GPU에는 부분 점수가 없습니다. 작동하거나 작동하지 않거나 둘 중 하나입니다. 현재 ASIC 프로젝트의 설계-대--검증 비율은 팀 규모와 기간 측면에서 1:3에서 1:4에 달합니다.
  • Software Verification: 웹사이트를 "vibe coding"하는 것은 검증이 필요하지 않지만, 미션 크리티컬한 분산 시스템과 규제가 엄격한 기업용 에이전트는 검증이 필요합니다.

사양 문제(The Specification Problem)

주요 병목 현상은 "사양 문제"입니다. 인간은 종종 자신이 원하는 것을 정확하게 명시할 수 없습니다. Axiom은 이를 AI가 사양(추측)을 제안하고 증명기가 이를 검증하여 목표를를 반복적으로 정교화하는 상호작용 과정으로 봅니다.

기술적 과제와 한계

Rice's Theorem과 결정 가능성

Rice's Theorem에 따르면 프로그램의 비자명한 속성은 모든 프로그램에 대해 형식적으로 검증할 수 없다고 하지만, Axiom는 유용한 프로그램의 대다수를 검증하는 데 집중합니다. 목표는 복잡한 복잡한 과업을 작은 구성 요소로 분해하여 증명 가능하게 만드는 것입니다.

확장성 및 컨텍스트 윈도우

증명이 길어짐에 따라(때때로 코드 1줄당 증명 20줄이 필요함), 컨텍스트 윈도우 제한이 문제가 됩니다. Axiom는 이를 다음과 같이 해결합니다:

  • Auto-informalization: 형식적 Lean code를 다시 비정형적 요약으로 변환하여 고수준의 추적을 유지합니다.
  • Cyclic Consistency: 논리가 타당한지 확인하기 위해 형식화와 비형식화 과정을 반복합니다.

AGI를 향한 길과 재귀적 자기 개선

Carina Hong은 비정형 수학 시스템만으로는 수학적 AGI에 도달할 수 없다고 주장합니다. 인간 전문가의 채점은 확장성이 없습니다. 초지능을 달성하기 위해 AI는 유한한 인간 전문가 집단에 의존하지 않고 스스로 검증된 데이터를 생성하고 재귀적으로 개선될 수 있어야 합니다.

Axel API

생태계를 가속화하기 위해 Axiom는 Lean을 위한 메타 프로그래밍 도구 세트인 **Axel (Axiom Lean Engine)**을 출시했습니다. 이 인프라를 통해 다른 개발자와 프런티어 랩(frontier labs)은 대규모 규모의 증명 검증 및 조작을 수행할 수 있으며, 잠재적으로 다른 LLM의 검증 파트너로서 역할을 수행할 수 있습니다.

Sources