Genesis Molecular AI: 利用 PEARL 和扩散模型推进药物研发

Genesis Molecular AI: 利用 PEARL 和扩散模型推进药物研发

扩散模型作为 3D 结构预测的基础原语

生成对抗网络 (GANs) 已被证明在蛋白质和配体系统中效果不佳,但扩散模型已成为 3D 结构预测的关键原语。虽然目前 AI 的重点大多集中在大语言模型 (LLMs) 上,但一些最具创新性的扩散研究目前正发生在分子生物学领域,特别是预测蛋白质和小分子如何在 3D 空间中相互作用。

PEARL: 实现亚埃级分辨率

Genesis Molecular AI 开发了 PEARL (Place Every Atom at the Right Location),这是一种结构预测模型,它通过蛋白质序列和配体表示来预测它们的结合 3D 结构。

超越“误差”

传统的领域基准测试通常使用 2Å RMSD (Root Mean Square Deviation) 阈值来衡量准确性。Genesis 认为 2Å 对于药物研发是不够的,因为它允许显著的物理误差,例如翻转的芳香环,这可能会使药物化学家的结构假设完全失效。

PEARL 的目标是 亚埃级 (1Å) 分辨率。这种精度的水平是必要的,因为关键的分子相互作用(如氢键)发生在非常窄的距离范围内(通常为 2.7Å 至 3.3Å)。仅仅 0.6Å 的误差就可能导致强键与物理碰撞或完全缺乏相互作用之间的区别。

建模诱导契合

与静态模型不同,PEARL 旨在建模蛋白质如何通过弯曲来适应配体——这一过程被称为诱导契合 (induced fit)。在最近针对 OpenBind benchmark (特别是 EV A721A protease target) 的测试中,PEARL 展示了预测蛋白质中柔性环 (flexible loops) 运动的卓越能力,在训练期间未见过的目标上表现优于其他协同折叠模型。

PEARL 的架构与训练策略

规模化与合成数据

由于公开的晶体结构数据库 (PDB) 相对较小 (约 200,000 个结构) 且增长缓慢,Genesis 使用基于物理的模拟来生成合成训练数据。这使得模型能够从比仅使用实验数据大得多的分子行为集中进行学习。

推理时规模化

类似于先进 LLMs 中的“思考标记 (thinking tokens)”,Genesis 采用了推理时规模化 (inference-time scaling)。该模型使用一个 基于扩散的模型头 (diffusion-based head) 来迭代地优化预测的结构。在此过程中,使用基于物理的引导来引导模型产生物理上有效的输出,从而提高整体性能。

SAPPHIRE: 智能体化药物研发

Genesis 正在开发 SAPPHIRE,这是一个旨在自动化药物研发繁琐过程的智能体平台。

  • 编排 (Orchestration): SAPPHIRE 使用 LLM 来编排一系列专业工具 (包括 PEARL 和 ADMET 预测模型)。
  • 假设生成 (Hypothesis Generation): 该智能体可以分析预测的晶体结构,形成关于结合的假设,并提出新的分子候选者。
  • 战略方向 (Strategic Direction): 其目标不是取代人类科学家,而是让药物化学家和 CAD 科学家能够作为总策略师,在智能体执行迭代的“设计-制造-测试-分析”循环时提供方向。

超越结构:ADMET 预测

预测 3D 位姿 (pose) 只是药物研发的一部分。一种可行的药物还必须满足 ADMET 特性:吸收 (Absorption)、分布 (Distribution)、代谢 (Metabolism)、排泄 (Elimination) 和毒性 (Toxicity)。

Genesis 利用多任务图神经网络来预测超过 30 种不同的特性,例如溶解度和口服生物利用度。他们强调,这些特性往往是负相关的 (例如,增加结合亲和力通常会降低溶解度),这使得寻找“帕累托最优 (Pareto optimal)”化合物成为一个需要高分辨率建模的复杂优化问题。

与湿实验数据的集成

Genesis 与 Insight 等公司合作,在 AI 预测与物理合成之间建立紧密的反馈循环。

"我们希望拥有尽可能快速的迭代的‘设计-制造-测试-分析’循环,并根据我们在实验室观察到的结果不断微调...模型。"

这种合作伙伴关系允许 Genesis 使用强化学习 (RL) 来根据实际的生化和细胞测定结果改进模型,从而减少对高通量筛选的依赖,这些筛选往往面临高假阳性率的问题。

Sources