非公式 AI を超えてスケールする:Axiom Math と検証済みスーパーインテリジェンスへの道
非公式 AI を超えてスケールする:Axiom Math と検証済みスーパーインテリジェンスへの道
テーゼ:検証が卓越性の触媒になる
形式的検証は「低品質」や幻覚を取り除くためのツールではなく、スーパーインテリジェンスを拡大・複合させる主要なメカニズムです。非公式 AI が人間の好みや確率的判断に依存するのに対し、検証済み AI は形式言語を用いて真実の基盤を提供し、AI がその卓越性を拡張できるようにします。これは、厳密な証明執筆がラムヌジャンを直感的な天才からより強力な数学者へと変えたのと同様です。
Axiom Math のアプローチと Putnam 成功例
Axiom Math は Action Prover と呼ばれるシステムを利用しています。これは Lean データ上で強化学習(RL)と教師ありファインチューニング(SFT)を施した事後学習モデルのアンサンブルです。このアプローチは既存出力の検証だけでなく、検証された生成に焦点を当てています。
Putnam ベンチマーク
2025 年 12 月、Axiom のシステムは Putnam 試験で満点 120/120 を達成し、最高得点 110 点の人間トップパフォーマーや DeepSeek(103 点)などの他の主要 LLM を上回りました。この結果は、はるかに少ないデータで構築された形式的数学システムが、非公式 LLM を超えて超人的タスクをこなせることを示しています。
Lean を基盤に
Lean は関数型プログラミング言語かつ定理証明支援システムで、証明をプログラムに変換します(カリー=ホワーディング対応)。Axiom が Lean を活用するのは、低レベルの論理的推論を「タクティック」で処理させ、高レベルの直感空間を自由に探索できるようにするためです。
数学的発見と証明
Axiom は 数学的発見 と 形式的証明 を区別します。証明は最終的な検証ですが、発見は数学者が構成や列、グラフなどを見つけて直感を形成する事前の予想段階です。
- 発見ツール: Axiom は数学的発見のためのコードベースをオープンソース化し、理論家が反例や構成(例:30 年前の予想の解決)を見つける手助けをし、正式な証明に取り掛かる前に活用できるようにします。
- ワークフロー: 理想的なパイプラインは、非公式の推論者が仕様や予想を提案し、形式的証明者(Action Prover など)が証明を実行する、という流れです。
検証済み AI のビジネスケース
2 億ドルのシリーズ A と 16 億ドルの評価額を持つ Axiom の市場戦略は、ニッチな学術数学を超えて、AI 生成コードに対する「優先購入権」が必要とされるあらゆる領域へと拡大しています。
ハードコアな検証市場
特定の産業では「ほぼ検証済み」結果は許容されません。
- ハードウェア検証: GPU が部分的に動作すれば評価されることはなく、動作すれば評価され、動作しなければ評価されません。現在、ASIC プロジェクトにおける設計から検証への標準的なチーム規模と期間の比率は 1:3〜1:4 です。
- ソフトウェア検証: ウェブサイトの「雰囲気的」コーディングは検証を必要としませんが、ミッションクリティカルな分散システムや規制が厳しいエンタープライズエージェントは検証が必須です。
仕様問題
大きなボトルネックは「仕様問題」です。人間はしばしば自分が欲しいものを正確に仕様化できません。Axiom はこれを、AI が仕様(予想)を提案し、証明者がそれを検証するという対話的プロセスとして捉え、目標を反復的に洗練させていきます。
技術的課題と限界
Rice の定理と決定可能性
Rice の定理は、プログラムの非自明な性質は すべての プログラムに対して形式的に検証できないと述べていますが、Axiom は有用なプログラムの 大多数 を検証対象とします。目標は、複雑なタスクを十分に小さなコンポーネントに分解し、証明可能にすることです。
スケーリングとコンテキストウィンドウ
証明が膨大になるにつれ(コード 1 行につき証明が 20 行になることもある)、コンテキストウィンドウの制限が問題になります。Axiom は以下で対処します。
- 自動非公式化: 形式的 Lean コードを非公式な要約に変換し、高レベルの追跡を維持します。
- 循環的一貫性: 形式化と非公式化を繰り返し行い、論理の整合性を確保します。
AGI と再帰的自己改善への道
Carina Hong は、非公式な数学システムだけでは人間の専門家による採点がスケールしないため、数学的 AGI に到達できないと主張します。スーパーインテリジェンスを実現するには、AI が自ら検証済みデータを生成し、人間専門家の有限プールに依存せずに再帰的に自己改善できる必要があります。
Axel API
エコシステムの加速のため、Axiom は Axel (Axiom Lean Engine) をリリースしました。これは Lean 用のメタプログラミングツール群で、他の開発者や最前線の研究所が大規模な証明検証や操作を行えるようにし、他の LLM の検証パートナーとして機能する可能性があります。
要約: Carina Hong(Axiom Math CEO)は、形式的検証こそが AI の卓越性をスケールさせ、数学的 AGI を実現する唯一の方法であり、非公式な推論や幻覚の限界を超えると主張しています。
タイトル: 非公式 AI を超えてスケールする:Axiom Math と検証済みスーパーインテリジェンスへの道