단백질을 위한 쓴 교훈: ESMFold 2와 단백질 생물학의 세계 모델

단백질을 위한 쓴 교훈: ESMFold 2와 단백질 생물학의 세계 모델

핵심 논제: 단백질 생물학의 스케일링 법칙

단백질 생물학은 방대한 진화 데이터를 학습한 범용 언어 모델이 명시적인 인간 설계 사전 지식 없이도 깊은 생물학적 이해를 얻을 수 있는 패러다임 전환에 접어들고 있습니다. "쓸 교훈"—계산량과 데이터를 확장하면 손으로 만든 휴리스틱보다 일관되게 성능이 좋다는 관찰—을 적용함으로써 BioHub는 구조, 기능을 예측하고 새로운 단백질을 설계할 수 있는 단백질 생물학의 세계 모델을 개발했습니다.

ESMC와 ESMFold 2: 세계 모델 구축

BioHub는 ESMC(Evolutionary Scale Modeling 패밀리의 네 번째 세대)와 ESMFold 2라는 단백질 예측 및 설계를 위한 오픈 과학 엔진을 공개했습니다. 이전 모델들이 다중 서열 정렬(MSA)이나 무거운 귀납적 편향에 의존했던 것과 달리, 이 모델들은 방대한 규모의 단백질 서열을 학습한 트랜스포머 기반 언어 모델 아키텍처를 활용합니다.

주요 기술 성과

  • 데이터 규모: 모델은 수십억 개의 단백질 서열을 학습했으며, 수온 분출구와 심해와 같은 다양한 생물군계에서 얻은 메타게놈 데이터가 크게 통합되었습니다. UniRef와 같은 정제된 데이터베이스에서 메타게놈으로 전환함으로써 이전 버전(ESM2)에서 보였던 수익 감소 현상을 없앴습니다.
  • 구조 예측: ESMFold 2는 원자 수준 해상도의 구조 예측을 몇 초 만에 제공하며, MSA가 필요 없고 이전 모델보다 현저히 빠릅니다.
  • 포괄적 아틀라스: BioHub는 68억 개의 비중복 단백질 데이터베이스 중 70% 서열 동일성으로 클러스터링된 11억 개 단백질에 대한 예측 구조를 해결했습니다.
  • 멀티머 기능: 이 모델은 단백질-단백질 상호작용을 예측하는 오픈 모델 중 최첨단을 대표합니다.

메커니즘 해석 가능성 및 출현 특성

희소 자동인코더(SAE)를 사용해 BioHub는 60억 파라미터 ESMC 모델의 표현 공간을 분석했습니다. 그들은 "다음 토큰" 예측 과제에서 자연스럽게 나타난 특징 계층을 발견했으며, 이는 수십 년에 걸친 환원주의적 생물학 연구와 유사합니다.

핵친성 엘보우 사례

구체적인 발견 중 하나는 모델이 "핵친성 엘보우"라는 핵심 기능 모티프를 식별할 수 있다는 점입니다. 모델은 전혀 다른 구조 토폴로지를 가진 진화적으로 다양한 단백질 군에서 이 모티프를 나타내는 단일 특징을 개발했습니다. 이는 모델이 서열 유사성을 초월한 생물학적 기능에 대한 잠재 변수를 학습했음을 시사합니다.

프로그래머블 바이오와 치료제 설계

BioHub는 세계 모델을 검색 공간으로 활용해 특정 설계 기준을 만족하는 분자를 찾는 "프로그래머블 바이오" 방향으로 나아가고 있습니다.

항체(scFv) 설계

팀은 단일 사슬 가변 파편(scFv)을 설계하는 데 ESMC를 성공적으로 활용했으며, 이는 중요한 치료제 형태입니다. 항체는 다양성을 위해 진화하며 제한된 경로에 얽매이지 않기 때문에 전통적인 MSA 기반 예측에 저항하는 경우가 많습니다. ESMC의 표현 공간은 치료적 친화도를 갖춘 항체 설계에 더 효과적임이 입증되었습니다.

미래: 단백질에서 가상 세포까지

Alex Rives는 데이터 생성, 예측 디지털 표현, 피드백 루프라는 세 가지 원칙에 기반한 새로운 과학 패러다임을 제시합니다.

가상 바이오 이니셔티브

BioHub는 세포 규모 데이터 생성을 가속화하기 위해 5억 달러 규모의 이니셔티브를 시작했습니다. 여기에는:

  • 4억 달러를 내부 데이터 생성 및 측정 방식 확대를 위한 기술 개발에 투자하고,
  • 1억 달러를 외부 데이터 생성 노력을 촉진하는 데 사용합니다.

복잡성 사다리 확장

분자 모델에서 "가상 세포"로 나아가기 위해 BioHub는 다음에 집중하고 있습니다:

  • 중재 생물학: 새로운 개입에 대한 세포 반응을 보기 위해 교란 실험을 확장합니다.
  • 공간 생물학: 세포를 고립된 상태가 아닌 원래 조직 맥락에서 이해합니다.
  • 교차 모달리티: 게놈, 에피게놈, 전사체, 단백질체를 동시에 측정해 세포 정보 계층을 매핑합니다.
  • 피드백 루프: AI와 자동화 실험실, 크라이오 전자 단층촬영을 통합해 모델이 가설을 추론하고 실험적으로 검증하는 능동 학습 시스템을 구축합니다.

Sources