Shinka Evolve: 科学的発見のためのオープンエンドプログラム探索

コアテーゼ：固定問題最適化を超えて

真の科学的進歩は、固定された人間定義の問題に対して解決策を最適化するのではなく、問題と解決策の共進化を必要とします。AlphaEvolve のような既存システムは特定タスクに対する解決策を最適化できますが、しばしば局所最適に陥ります。これは、重要な突破口に到達するために必要な「踏み台」‑ 中間的で必ずしも関連しない問題‑ を自動的に発明する能力が欠如しているためです。

Shinka Evolve：アーキテクチャとイノベーション

Shinka Evolve は、LLM（大規模言語モデル）を変異オペレータとして利用し、最適なプログラムを探索するサンプル効率の高い進化的フレームワークです。その主目的は、最先端の結果を得るために必要な計算コストと評価回数を削減し、科学的発見を民主化することです。

進化的探索メカニズム

Shinka Evolve はプログラムをツリー構造で整理したアーカイブを保持します。プロセスは以下の反復ループで進行します：

サンプリング：データベースから親プログラムと「インスピレーション」プログラムを抽出。
変異：LLM にコード編集、完全書き換え、またはクロスオーバー（2つの異なるプログラムの組み合わせ）によるプログラム改善を促す。
評価：生成されたプログラムを合成評価器で実行し、証拠を収集。
拡散：成功したプログラムから得た知識をデータベース全体に拡散し、以降の探索を導く。

主な技術的イノベーション

効率性と多様性を高めるため、Shinka Evolve は以下の仕組みを導入しています：

UCB バンディットによるモデルアンサンブル：単一の LLM に依存せず、フロンティアモデル（例：GPT-5、Sonnet 4.5、Gemini）のアンサンブルを使用。上限信頼境界（UCB）バンディットアルゴリズムで、特定の変異に最適なモデルを適応的に選択し、探索と利用のバランスを取ります。
ミュータブルマーカー：インポート文など必須コードが削除されるのを防ぐため、コードのどの部分が変更可能かをマーカーで定義し、リジェクションサンプリングでロバスト性を確保。
メタスクラップパッド：成功したプログラムから抽出した洞察と要約をグローバルに保持。これらの洞察をメタ推奨としてシステムプロンプトに追加し、システムが意味的に発見を把握・伝播できるようにします。

具体的な成果と応用例

Shinka Evolve は、はるかに少ない評価回数で人間が設計した、あるいは既知のアルゴリズム結果を上回る能力を実証しています：

円配置問題：200 回未満の LLM インタラクションで、円を正方形に配置する際の半径和を最大化する最先端結果を達成。Robert Lange は、微小な重なりを許容し、後で正確解に洗練する「代理問題」の使用が重要な踏み台だったと指摘しています。
競技プログラミング：ALE-Bench（長期アルゴリズム工学ベンチマーク）において、Shinka Evolve は初期解を最適化し、AtCoder の競技プログラミングコンテストで2位に相当する性能を示しました。
エージェントスキャフォールド：Automated Design of Agentic Systems（ADAS）フレームワークを用いて、AIME 数学ベンチマーク向けエージェントスキャフォールドを進化させ、GPT-4.1 nano のような小型・低コストモデルの性能を大幅に向上させました。
MoE ロードバランシング：Mixture-of-Experts（MoE）モデル向けのロードバランシング損失関数を進化させ、モデル性能とロードバランシングのトレードオフの凸包を明らかにしました。

「AI サイエンティスト」と研究の未来

Robert Lange は AI Scientist v1 から v2 への移行を語ります。v1 はテンプレートベースの線形実行であったのに対し、v2 はエージェント的ツリ―検索を実装しています。

線形からツリ―検索へ

v1 は線形パス（アイデア → 実験 → 論文）をたどりますが、v2 はカール・ポパーの科学的方法に基づく仮説生成・実行・反証のループを実装。これにより、エージェントは過去の失敗・成功実験から得た証拠に基づき次のステップを適応的に選択できます。

「スロップ」批判と人間のエージェンシー

AI が生成する論文が「スロップ」（表面的模倣で深い理解がない）になる懸念に対し、Lange はすべての出力が自然界に相応しいわけではないと認めつつ、現在のシステムは自律研究における「GPT-1 時代」にあると主張します。人間は研究の実行から指揮へと役割をシフトし、探索方向の指示と最終結果の検証を行い、AI が実験実行の反復的な労働を担うと予測しています。

長期予測：ルビコン・モーメント

Lange は、今後 5〜20 年で科学研究が根本的に変革すると予測します。彼は「ルビコン・モーメント」を、AI システムが新たな大規模アーキテクチャ（例：Transformer の後継）を発見し、人類がそれを採用する転換点と位置付けます。現在の AI は表層的な組み合わせは可能ですが、深く根拠のある理解へのギャップは多様性・スケーリング・検証可能なフィードバックループの統合により埋められると考えています。

Shinka Evolve：科学的発見のためのオープンエンドプログラム探索