超越非正式 AI 的規模化:Axiom Math 與驗證式超智能之路

超越非正式 AI 的規模化:Axiom Math 與驗證式超智能之路

論點:驗證是卓越的催化劑

形式驗證並非用於修復「糟糕」或消除幻覺的工具;它是規模化與複合式超智能的主要機制。非正式 AI 依賴於人類偏好和隨機判斷,而驗證式 AI 則使用形式語言來提供基準真相(ground truth),讓 AI 能夠擴展其卓越能力,就像嚴謹的證明寫作將 Ramanujan 從直覺天才轉變為更強大的數學家一樣。

Axiom Math 的方法與 Putnam 成功案例

Axiom Math 利用一個稱為 Action Prover 的系統,這是一個由使用 Reinforcement Learning (RL) 和 Supervised Fine-Tuning (SFT) 在 Lean 數據上進行後訓練的模型集成。這種方法專注於驗證式生成,而非僅僅是對現有輸出進行驗證。

Putnam 基準測試

在 2025 年 12 月,Axiom 的系統在 Putnam 考試中獲得了 120/120 的滿分,超越了表現最好的人類(得分 110)以及其他領先的 LLM,如 DeepSeek(得分 103)。這一結果證明了擁有顯著較少數據的形式數學系統,在超人類任務上可以勝過非正式 LLM。

Lean 作為基礎

Lean 是一種函數式編程語言和定理證明器,它透過 Curry-Howard 對應關係將證明轉化為程式。

Axiom 利用 Lean,因為它允許 AI 處理低層次的邏輯推導,透過「tactics」來實現,從而讓系統能夠在更高層次的直覺空間中進行導航。

數學發現 vs. 證明

Axiom 區分了 數學發現形式證明。證明是最終的驗證,但發現是預先猜想的步驟,數學家在此步驟中尋找構造、序列或圖形以形成直覺。

  • 發現工具: Axiom 正在開源用於數學發現的代碼庫,以幫助理論家在嘗試進行形式證明之前,尋找反例或構造(例如,解決 30 年前的猜想)。
  • 工作流程: 理想的流程涉及一個非正式推理器提出規格或猜想,然後由形式證明器(如 Action Prover)執行證明。

驗證式 AI 的商業案例

憑藉 2 億美元的 A 輪融資和 16 億美元的估值,Axiom 的市場策略已超越了利基學術數學領域,延伸至任何需要對 AI 生成的代碼進行「優先否決權」的領域。

硬核驗證市場

某些行業對「大致驗證」的結果零容忍:

  • 硬體驗證: GPU 沒有部分分數;它要麼能用,要麼不能用。目前,ASIC 專案中從設計到驗證的行業標準在團隊規模和持續時間方面的比例為 1:3 到 1:4。
  • 軟體驗證: 雖然「vibe coding」網站不需要驗證,但關鍵任務的分佈式系統和受嚴格監管的企業級代理(agents)則需要。

規格問題

一個主要的瓶頸是「規格問題」:人類往往無法精確地描述他們想要什麼。Axiom 將其視為一個互動過程,其中 AI 建議規格(猜想),而證明器驗證它們,並透過迭代來精煉目標。

技術挑戰與限制

Rice's Theorem 與可判定性

雖然 Rice's Theorem 指出程式的非平凡屬性無法針對 所有 程式進行形式驗證,但 Axiom 專注於驗證 大多數 有用的程式。目標是將複雜任務分解為足夠小的組件,使其變得可證明。

規模化與上下文窗口

隨著證明過程的長度增加(有時每 1 行代碼對應 20 行證明),上下文窗口的限制成為一個問題。Axiom 透過以下方式解決此問題:

  • Auto-informalization: 將形式化的 Lean code 轉換回非正式的摘要,以維持高層次的追蹤。
  • Cyclic Consistency: 重複進行形式化與非形式化,以確保邏輯保持一致。

通往 AGI 的路徑與遞歸式自我改進

Carina Hong 指出,單靠非正式數學系統永遠無法達到數學 AGI,因為人類專家的評分無法規模化。為了實現超智能,AI 必須能夠生成自己的驗證式數據,並遞歸地自我改進,而不依賴於有限的人類專家池。

Axel API

為了加速生態系統,Axiom underbraceing Axel (Axiom Lean Engine),一套用於 Lean 的元編程工具。這套基礎設施允許其他開發者和前沿實驗室進行大規模的證明驗證與操作,潛在作為其他 LLM 的組成部分,作為驗證夥伴。

Sources