Shinka Evolve:科學發現的開放式程式搜尋

Shinka Evolve:科學發現的開放式程式搜尋

核心論點:超越固定問題的最佳化

真正的科學進步需要問題與解決方案的共同演化,而不是針對固定、由人類定義的問題去最佳化解決方案。雖然現有系統如 AlphaEvolve 能夠對特定任務最佳化解決方案,但它們常因缺乏自動發明「踏腳石」——即中間的、可能不相關的問題——而陷入局部最優,無法達成重大突破。

Shinka Evolve:架構與創新

Shinka Evolve 被設計為一個樣本效率高的演化框架,利用大型語言模型(LLM)作為突變運算子來搜尋最佳程式。其主要目標是透過降低計算成本與所需評估次數,讓科學發現變得更民主化,達到最先進的成果。

演化搜尋機制

Shinka Evolve 以樹狀結構維護程式檔案庫。其流程遵循以下迭代循環:

  1. 抽樣:從資料庫中抽取父程式與「靈感」程式。
  2. 突變:透過提示 LLM 以程式編輯、完整重寫或交叉(結合兩個不同程式)的方式改進程式。
  3. 評估:將產生的程式送入合成評估器以收集證據。
  4. 擴散:將成功程式獲得的知識擴散至資料庫,以指導後續搜尋。

主要技術創新

為提升效率與多樣性,Shinka Evolve 引入了多項機制:

  • 透過 UCB 多臂賭徒的模型集成:Shinka Evolve 不僅依賴單一 LLM,而是使用前沿模型的集合(例如 GPT‑5、Sonnet 4.5、Gemini)。它採用上限信賴界(UCB)多臂賭徒演算法,動態選擇用於特定突變的模型,在探索不同模型與利用歷史上帶來改進的模型之間取得平衡。
  • 可變標記:為防止 LLM 刪除關鍵程式碼(如 import),系統使用標記來定義哪些程式碼區塊是可變且可演化的,並透過拒絕抽樣確保穩健性。
  • 元筆記本:系統維護一套從成功程式中提取的全域洞見與摘要。這些洞見會被轉換為元建議,加入系統提示,使系統能在語意上掌握並傳播發現。

具體成果與應用

Shinka Evolve 已展示出以遠低於以往的評估次數,超越人類設計或先前已知的演算法結果的能力:

  • 圓形排布:系統在不到 200 次 LLM 互動下,於圓形排布(在正方形內最大化圓半徑總和)問題上達到最先進成果。Robert Lange 指出,使用「代理問題」(允許少量重疊再精煉至精確解)是此成功的關鍵踏腳石。
  • 競賽程式設計:在 ALE‑Bench(長期視野演算法工程基準)中,Shinka Evolve 將初始解優化至若在 AtCoder 競賽中可獲得第二名的水準。
  • 代理腳手架:透過 Automated Design of Agentic Systems(ADAS)框架,Shinka Evolve 為 AIME 數學基準演化出代理腳手架,顯著提升了如 GPT‑4.1 nano 等較小、成本較低模型的表現。
  • MoE 負載平衡:系統為混合專家(Mixture‑of‑Experts,MoE)模型演化出負載平衡損失函式,揭示了模型效能與負載平衡之間的凸包權衡。

「AI 科學家」與研究的未來

Robert Lange 討論了從 AI Scientist v1v2 的轉變,從基於模板的線性執行走向代理樹搜尋。

從線性到樹狀搜尋

v1 採用線性流程(想法 → 實驗 → 論文),而 v2 實作了基於卡爾·波普爾科學方法的假設生成、執行與反駁迴圈。這使得代理能根據先前失敗或成功實驗累積的證據,調整下一步的行動。

「Slop」批評與人類能動性

針對 AI 生成的論文可能是「slop」(表層模仿、缺乏深度理解)的擔憂,Lange 承認並非每個產出都值得發表。然而,他認為系統目前正處於「GPT‑1 時代」的自主研究階段。他主張人類將從 執行 研究轉向 引導 研究——在 AI 處理實驗的迭代繁瑣工作時,人類負責指引探索方向並驗證最終結果。

長期預測:Rubicon 時刻

Lange 預測未來 5‑20 年內,科學研究將被根本改變。他將「Rubicon 時刻」定義為一個全新大型架構(例如 Transformer 的繼任者)被 AI 系統發現並被人類採用的關鍵點。他認為,雖然 AI 目前只能進行表層的組合,但透過多樣性提升、規模擴大以及可驗證的回饋迴路,最終將彌合與深度、扎根理解之間的差距。

Sources