蛋白质领域的苦涩教训:ESMFold 2 与蛋白质生物学的世界模型
蛋白质领域的苦涩教训:ESMFold 2 与蛋白质生物学的世界模型
核心论点:蛋白质生物学中的缩放定律
蛋白质生物学正在进入一个范式转变,即在海量进化数据上训练的通用语言模型,可以在没有显式人工设计先验的情况下,涌现出深刻的生物学理解。通过应用“苦涩的教训”——即观察到扩展计算量和数据规模始终优于手工设计的启发式方法——BioHub 开发了一个蛋白质生物学的世界模型,能够预测结构、功能并设计新型蛋白质。
ESMC 与 ESMFold 2:构建世界模型
BioHub 发布了 ESMC(Evolutionary Scale Modeling 系列的第四代)和 ESMFold 2,这是一个用于蛋白质预测和设计的开源科学引擎。 与以往依赖多序列比对 (MSAs) 或沉重的归纳偏置的模型不同,这些模型利用基于 transformer 的语言模型架构,并在大规模蛋白质序列上进行训练。
关键技术成就
- 数据规模: 该模型在数十亿个蛋白质序列上进行了训练,包括大量整合的宏基因组数据(来自热液喷口和深海等不同生物群落的序列)。这种从精选数据库(如 UniRef)向宏基因组学的转变,消除了在早期版本 (ESM2) 中看到的收益递减现象。
- 结构预测: ESMFold 2 在几秒钟内即可提供原子级分辨率的结构预测,无需 MSA,这使其比前代模型显著更快。
- 全面图谱: BioHub 已从 68 亿个非冗余蛋白质数据库中,解析了 11 亿个蛋白质的预测结构(按 70% 序列一致性聚类)。
- 多聚体能力: 该模型在预测蛋白质-蛋白质相互作用方面代表了开源模型的最高水平。
机械解释性与涌现特征
通过使用稀疏自编码器 (SAEs),BioHub 分析了拥有 60 亿参数的 ESMC 模型的表示空间。他们发现了一种特征层级,这些特征是从“下一个 token”预测任务中自发涌现的,反映了数十年的还原论生物学研究。
亲核肘部示例
一个具体的发现是模型识别“亲核肘部” (nucleophilic elbow) —— 一个核心功能基序的能力。模型开发了一个单一特征来表示这一基序,跨越了具有完全不同结构拓扑结构的进化多样性蛋白质家族。这表明模型学习到了一个超越序列相似性的生物学功能的潜在变量。
可编程生物学与治疗设计
BioHub 正在迈向“可编程生物学”,即利用世界模型作为搜索空间,以寻找满足特定设计标准的分子。
设计抗体 (scFvs)
该团队已成功使用 ESMC 设计了单链可变片段 (scFvs),这是一种关键的治疗手段。由于抗体是为了多样性而非受限路径而进化的,它们通常会抵制传统的基于 MSA 的预测。ESMC 的表示空间已被证明在设计具有医疗功能所需治疗亲和力的抗体方面更为有效。
未来:从蛋白质到虚拟细胞
Alex Rives 概述了一个基于三个原则的新科学范式愿景:数据生成、预测性数字表示和反馈循环。
虚拟生物学计划
BioHub 发起了一项 5 亿美元的计划,以加速细胞规模数据的创建。这包括:
- 4 亿美元 用于内部数据创建和技术开发,以增加测量模态。
- 1 亿美元 用于催化外部数据生成工作。
扩展复杂性阶梯
为了从分子模型转向“虚拟细胞”,BioHub 专注于:
- 干预生物学: 扩展扰动实验,以观察细胞如何响应新的干预措施。
- 空间生物学: 在原生组织背景下而非孤立地理解细胞。
- 跨模态: 同时测量基因组、表观基因组、转录组和蛋白质组,以绘制细胞信息层级结构。
- 反馈循环: 将 AI 与自动化实验室和冷冻电子断层扫描相结合,创建一个主动学习系统,使模型能够对假设进行推理并进行实验验证。