Shinka Evolve：科學發現的開放式程式搜尋

核心論點：超越固定問題的最佳化

真正的科學進步需要問題與解決方案的共同演化，而不是針對固定、由人類定義的問題去最佳化解決方案。雖然現有系統如 AlphaEvolve 能夠對特定任務最佳化解決方案，但它們常因缺乏自動發明「踏腳石」——即中間的、可能不相關的問題——而陷入局部最優，無法達成重大突破。

Shinka Evolve：架構與創新

Shinka Evolve 被設計為一個樣本效率高的演化框架，利用大型語言模型（LLM）作為突變運算子來搜尋最佳程式。其主要目標是透過降低計算成本與所需評估次數，讓科學發現變得更民主化，達到最先進的成果。

演化搜尋機制

Shinka Evolve 以樹狀結構維護程式檔案庫。其流程遵循以下迭代循環：

抽樣：從資料庫中抽取父程式與「靈感」程式。
突變：透過提示 LLM 以程式編輯、完整重寫或交叉（結合兩個不同程式）的方式改進程式。
評估：將產生的程式送入合成評估器以收集證據。
擴散：將成功程式獲得的知識擴散至資料庫，以指導後續搜尋。

主要技術創新

為提升效率與多樣性，Shinka Evolve 引入了多項機制：

透過 UCB 多臂賭徒的模型集成：Shinka Evolve 不僅依賴單一 LLM，而是使用前沿模型的集合（例如 GPT‑5、Sonnet 4.5、Gemini）。它採用上限信賴界（UCB）多臂賭徒演算法，動態選擇用於特定突變的模型，在探索不同模型與利用歷史上帶來改進的模型之間取得平衡。
可變標記：為防止 LLM 刪除關鍵程式碼（如 import），系統使用標記來定義哪些程式碼區塊是可變且可演化的，並透過拒絕抽樣確保穩健性。
元筆記本：系統維護一套從成功程式中提取的全域洞見與摘要。這些洞見會被轉換為元建議，加入系統提示，使系統能在語意上掌握並傳播發現。

具體成果與應用

Shinka Evolve 已展示出以遠低於以往的評估次數，超越人類設計或先前已知的演算法結果的能力：

圓形排布：系統在不到 200 次 LLM 互動下，於圓形排布（在正方形內最大化圓半徑總和）問題上達到最先進成果。Robert Lange 指出，使用「代理問題」（允許少量重疊再精煉至精確解）是此成功的關鍵踏腳石。
競賽程式設計：在 ALE‑Bench（長期視野演算法工程基準）中，Shinka Evolve 將初始解優化至若在 AtCoder 競賽中可獲得第二名的水準。
代理腳手架：透過 Automated Design of Agentic Systems（ADAS）框架，Shinka Evolve 為 AIME 數學基準演化出代理腳手架，顯著提升了如 GPT‑4.1 nano 等較小、成本較低模型的表現。
MoE 負載平衡：系統為混合專家（Mixture‑of‑Experts，MoE）模型演化出負載平衡損失函式，揭示了模型效能與負載平衡之間的凸包權衡。

「AI 科學家」與研究的未來

Robert Lange 討論了從 AI Scientist v1 到 v2 的轉變，從基於模板的線性執行走向代理樹搜尋。

從線性到樹狀搜尋

v1 採用線性流程（想法 → 實驗 → 論文），而 v2 實作了基於卡爾·波普爾科學方法的假設生成、執行與反駁迴圈。這使得代理能根據先前失敗或成功實驗累積的證據，調整下一步的行動。

「Slop」批評與人類能動性

針對 AI 生成的論文可能是「slop」（表層模仿、缺乏深度理解）的擔憂，Lange 承認並非每個產出都值得發表。然而，他認為系統目前正處於「GPT‑1 時代」的自主研究階段。他主張人類將從執行研究轉向引導研究——在 AI 處理實驗的迭代繁瑣工作時，人類負責指引探索方向並驗證最終結果。

長期預測：Rubicon 時刻

Lange 預測未來 5‑20 年內，科學研究將被根本改變。他將「Rubicon 時刻」定義為一個全新大型架構（例如 Transformer 的繼任者）被 AI 系統發現並被人類採用的關鍵點。他認為，雖然 AI 目前只能進行表層的組合，但透過多樣性提升、規模擴大以及可驗證的回饋迴路，最終將彌合與深度、扎根理解之間的差距。

Shinka Evolve：科學發現的開放式程式搜尋

Shinka Evolve：科學發現的開放式程式搜尋

核心論點：超越固定問題的最佳化

Shinka Evolve：架構與創新

演化搜尋機制

主要技術創新

具體成果與應用

「AI 科學家」與研究的未來

從線性到樹狀搜尋

「Slop」批評與人類能動性

長期預測：Rubicon 時刻

Sources