Shinka Evolve：面向科学发现的开放式程序搜索

核心论点：超越固定问题的优化

真正的科学进步需要问题与解决方案的共同演化，而不是为固定的、由人类定义的问题优化解决方案。虽然现有系统如 AlphaEvolve 能够针对特定任务优化解法，但它们常常陷入局部最优，因为缺乏自动发明“垫脚石”——即中间的、可能不相关的问题——以实现重大突破的能力。

Shinka Evolve：架构与创新

Shinka Evolve 旨在成为一种样本高效的进化框架，使用大语言模型（LLM）作为变异算子来搜索最优程序。其主要目标是通过降低计算成本和所需评估次数，使科学发现更加民主化，能够更快获得最先进的成果。

进化搜索机制

Shinka Evolve 将程序存档组织为一棵树。其过程遵循以下迭代循环：

抽样：从数据库中抽取父程序和“灵感”程序。
变异：通过提示 LLM 对程序进行代码编辑、完整重写或交叉（结合两个不同程序）以改进程序。
评估：将生成的程序交给合成评估器运行，以收集证据。
扩散：将成功程序获得的知识在数据库中扩散，以指导后续搜索。

关键技术创新

为提升效率和多样性，Shinka Evolve 引入了多种机制：

基于 UCB 强盗的模型集成：Shinka Evolve 不依赖单一 LLM，而是使用前沿模型的集合（例如 GPT‑5、Sonnet 4.5、Gemini）。它采用上置信界（UCB）强盗算法自适应地为特定变异选择模型，在探索不同模型与利用历史上带来改进的模型之间取得平衡。
可变标记：为防止 LLM 删除关键代码（如 import），系统使用标记来定义哪些代码部分是可变且可进化的，并通过拒绝采样确保鲁棒性。
元记事本：系统维护一套从成功程序中提取的全局洞见和摘要。这些洞见被转化为元推荐，加入系统提示，使系统能够语义化地理解并传播发现。

具体成果与应用

Shinka Evolve 已展示出在显著减少评估次数的前提下，能够超越人工设计或先前已知的算法结果：

圆形填充：系统在不到 200 次 LLM 交互中达到了圆形填充（在正方形中最大化圆半径之和）的最先进结果。Robert Lange 指出，使用“代理问题”（在精确求解前允许极小的重叠）是实现该成功的关键垫脚石。
竞技编程：在 ALE‑Bench（长时程算法工程基准）中，Shinka Evolve 将初始解优化至足以在 AtCoder 竞技编程挑战中获得第二名的水平。
代理支架：借助 Automated Design of Agentic Systems（ADAS）框架，Shinka Evolve 为 AIME 数学基准进化出代理支架，显著提升了如 GPT‑4.1 nano 等更小、更廉价模型的表现。
MoE 负载均衡：系统为专家混合（Mixture‑of‑Experts，MoE）模型进化出负载均衡损失函数，揭示了模型性能与负载均衡之间的凸包权衡。

“AI 科学家”与研究的未来

Robert Lange 讨论了从 AI Scientist v1 向 v2 的转变，后者从基于模板的线性执行转向代理树搜索。

从线性到树搜索

v1 采用线性路径（想法 → 实验 → 论文），而 v2 实现了基于卡尔·波普尔科学方法的假设生成、执行与证伪循环。这使得代理能够根据先前失败或成功实验累积的证据动态调整下一步行动。

“Slop” 批评与人类能动性

针对 AI 生成的论文可能是“slop”（表层模仿、缺乏深层理解）的担忧，Lange 承认并非每个输出都值得发表。但他认为系统目前正处于自主研究的 “GPT‑1 时刻”。他设想人类将从执行研究转向引导研究——在 AI 处理实验执行的迭代繁琐工作时，人类负责指引探索方向并验证最终结果。

长期预测：鲁比孔时刻

Lange 预测未来 5‑20 年科学研究将被根本性改变。他将 “鲁比孔时刻” 定义为一次由 AI 系统发现并随后被人类采纳的全新大型架构（例如 Transformer 的继任者）。他认为，虽然 AI 目前只能进行表层组合，但通过提升多样性、规模化以及引入可验证的反馈回路，深层、扎根的理解差距将被弥合。

Shinka Evolve：面向科学发现的开放式程序搜索

Shinka Evolve：面向科学发现的开放式程序搜索

核心论点：超越固定问题的优化

Shinka Evolve：架构与创新

进化搜索机制

关键技术创新

具体成果与应用

“AI 科学家”与研究的未来

从线性到树搜索

“Slop” 批评与人类能动性

长期预测：鲁比孔时刻

Sources