蛋白質的慘痛教訓:ESMFold 2 與蛋白質生物學的世界模型
蛋白質的慘痛教訓:ESMFold 2 與蛋白質生物學的世界模型
核心論點:蛋白質生物學中的規模定律
蛋白質生物學正進入一個範式轉移,即在海量演化數據上訓練的通用語言模型,可以在沒有顯式人工設計先驗知識的情況下,展現出深層的生物學理解。透過應用「慘痛教訓」(bitter lesson)——即觀察到擴展計算量與數據規模始終優於手工設計的啟發式方法——BioHub 開發了一個蛋白質生物學的世界模型,能夠預測結構、功能並設計新型蛋白質。
ESMC 與 ESMFold 2:構建世界模型
BioHub 已發佈 ESMC(Evolutionary Scale Modeling 系列的第四代)與 ESMFold 2,這是一個用於蛋白質預測與設計的開放科學引擎。與以往依賴多序列比對(MSAs)或沉重歸納偏置的模型不同,這些模型利用基於 transformer 的語言模型架構,並在極大規模的蛋白質序列上進行訓練。
關鍵技術成就
- 數據規模: 模型是在數十億個蛋白質序列上訓練的,其中包括大量整合的宏基因組數據(來自熱液噴口和深海等不同生物群落的序列)。這種從精選數據庫(如 UniRef)向宏基因組學的轉移,消除了早期版本(ESM2)中看到的邊際收益遞減現象。
- 結構預測: ESMFold 2 可在數秒內提供原子級解析度的結構預測,無需經過 MSAs,使其速度顯著快於前代模型。
- 全面圖譜: BioHub 已從 68 億個非冗餘蛋白質數據庫中,解析了 11 億個蛋白質的預測結構(以 70% 序列一致性進行聚類)。
- 多聚體能力: 在預測蛋白質-蛋白質交互作用方面,該模型代表了開放模型中的尖端技術(state-of-the-art)。
機制可解釋性與湧現特徵
透過使用稀疏自編碼器(SAEs),BioHub 分析了擁有 60 億個參數的 ESMC 模型之表示空間。他們發現了一種特徵層級結構,這些特徵是從「下一個 token」預測任務中自發湧現的,反映了數十年的還原論生物學研究。
親核性肘部(Nucleophilic Elbow)範例
一個具體的發現是模型能夠識別「親核性肘部」——一個核心功能基元(motif)。模型開發出單一特徵來表示這個基元,橫跨演化上多樣化且結構拓撲完全不同的蛋白質家族。這表明模型學習到了一個超越序列相似性的生物學功能潛在變量。
可編程生物學與治療設計
BioHub 正邁向「可編程生物學」,將世界模型作為搜索空間,以尋找滿足特定設計標準的分子。
設計抗體 (scFvs)
團隊已成功使用 ESMC 設計單鏈可變片段(scFvs),這是一種關鍵的治療手段。由於抗體是為了多樣性而非受限路徑而演化的,它們通常會抵抗傳統基於 MSA 的預測。ESMC 的表示空間已被證明在設計具有醫療功能所需治療親和力的抗體方面更為有效。
未來:從蛋白質到虛擬細胞
Alex Rives 概述了基於三個原則的新科學範式願景:數據生成、預測性數位表示,以及反饋迴路。
虛擬生物學倡議
BioHub 發起了一項 5 億美元的倡議,以加速細胞規模數據的創建。這包括:
- 4 億美元 用於內部數據創建與技術開發,以增加測量模態。
- 1 億美元 用於催化外部數據生成工作。
擴展複雜度階梯
為了從分子模型轉進到「虛擬細胞」,BioHub 正專注於:
- 干預生物學: 擴展擾動實驗,以觀察細胞如何對新型干預做出反應。
- 空間生物學: 在原生組織環境而非孤立狀態下理解細胞。
- 跨模態: 同時測量基因組、表觀基因組、轉錄組與蛋白質組,以繪製細胞信息層級結構。
- 反饋迴路: 將 AI 與自動化實驗室及冷凍電子斷層掃描(cryo-electron tomography)相結合,創建一個主動學習系統,使模型能夠對假設進行推理並通過實驗進行驗證。