Genesis Molecular AI: PEARL과 확산 모델을 통한 신약 개발의 진보

Genesis Molecular AI: PEARL과 확산 모델을 통한 신약 개발의 진보

3D 구조 예측을 위한 기본 요소로서의 확산 모델

Generative Adversarial Networks (GANs)는 단백질 및 리간드 시스템에 효과적이지 않음이 증명되었으나, 확산 모델(diffusion models)은 3D 구조 예측을 위한 핵심적인 기본 요소로 부상했습니다. 현재 AI 연구의 상당 부분이 대규모 언어 모델(LLMs)에 집중되어 있는 반면, 가장 혁신적인 확산 연구 중 일부는 현재 분자 생물학 분야, 특히 단백질과 작은 분자가 3D 공간에서 어떻게 상호작용하는지를 예측하는 분야에서 이루어지고 있습니다.

PEARL: 서브 옹스트롬 해상도 달성

Genesis Molecular AI는 단백질 서열과 리간드 표현을 입력받아 이들의 결합된 3D 구조를 예측하는 구조 예측 모델인 **PEARL (Place Every Atom at the Right Location)**을 개발했습니다.

"Slop"을 넘어서

전통적인 이 분야의 벤치마크는 정확도를 위해 종종 2Å RMSD (Root Mean Square Deviation) 임계값을 사용합니다. Genesis는 2Å가 신약 개발에 불충분하다고 주장합니다. 왜냐하면 이는 뒤집힌 방향족 고리(aromatic rings)와 같이 의약 화학자에게 구조적 가설을 완전히 무효화할 수 있는 상당한 물리적 오류를 허용하기 때문입니다.

PEARL은 서브 옹스트롬(sub-angstrom, 1Å) 해상도를 목표로 합니다. 이러한 수준의 정밀도는 수소 결합과 같은 중요한 분자 상호작용이 매우 좁은 거리 범위(일반적으로 2.7Å에서 3.3Å 사이) 내에서 발생하기 때문에 필수적입니다. 단 0.6Å의 오차만으로도 강한 결합과 물리적 충돌 또는 상호작용의 완전한 결여 사이의 차이를 만들 수 있습니다.

유도 적합(Induced Fit) 모델링

정적인 모델과 달리, PEARL은 단백질이 리간드를 수용하기 위해 어떻게 유연하게 변하는지, 즉 유도 적합(induced fit) 과정을 모델링하도록 설계되었습니다. 최근 OpenBind 벤치마크(특히 EV A721A protease target)에 대한 테스트에서, PEARL은 훈련 과정에서 보지 못한 타겟에 대해 단백질의 유연한 루프(loops)의 움직임을 예측하는 탁월한 능력을 보여주며 다른 공동 폴딩(co-folding) 모델들을 능가했습니다.

PEARL의 아키텍처 및 훈련 전략

스케일링 및 합성 데이터

공개된 결정 구조 데이터베이스(PDB)는 상대적으로 작고(약 200,000개 구조) 성장 속도가 느리기 때문에, Genesis는 물리 기반 시뮬레이션을 사용하여 합성 훈련 데이터를 생성합니다. 이를 통해 모델은 실험 데이터만을 사용하는 것보다 훨씬 더 큰 규모의 분자 행동 세트를 통해 학습할 수 있습니다.

추론 시간 스케일링(Inference-Time Scaling)

고급 LLM의 "thinking tokens"와 유사하게, Genesis는 추론 시간 스케일링을 채택합니다. 모델은 예측된 구조를 반복적으로 정교화하는 **확산 기반 헤드(diffusion-based head)**를 사용합니다. 이 과정에서 물리 기반 가이드(physics-based guidance)가 사용되어 모델을 물리적으로 유효한 출력으로 유도하여 전반적인 성능을 향상시킵니다.

SAPPHIRE: 에이전트형 신약 개발

Genesis는 신약 개발의 번거로운 작업을 자동화하기 위해 설계된 에이전트형 플랫폼인 SAPPHIRE를 개발 중입니다.

  • 오케스트레이션(Orchestration): SAPPHIRE는 LLM을 사용하여 PEARL 및 ADMET 예측 모델을 포함한 일련의 전문화된 도구들을 조케스트레이션합니다.
  • 가설 생성(Hypothesis Generation): 이 에이전트는 예측된 결정 구조를 분석하고, 결합에 대한 가설을 세우고, 새로운 분자 후보를 제안할 수 있습니다.
  • 전략적 방향(Strategic Direction): 목표는 인간 과학자를 대체하는 것이 아니라, 의약 화학자와 CAD 과학자들이 거대한 전략가로서 역할을 수행하며, 에이전트가 반복적인 design-make-test-analyze 사이클을 design-make-test-analyze 사이클을 수행하는 동안 방향을 제시하도록 하는 것입니다.

구조를 넘어: ADMET 예측

3D 포즈(pose)를 예측하는 것은 신약 개발의 한 부분일 뿐입니다. 실행 가능한 약물은 또한 ADMET 특성(흡수, 분포, Metabolism, Elimination, Toxicity)을 만족해야 합니다: 흡수, 분포, 대사, 배설, 독성.

Genesis는 다중 작업 그래프 신경망(multitask graph neural networks)을 사용하여 용해도와 경구 생체 이용률(oral bioavailability)과 같은 30가지 이상의 서로 다른 특성을 예측합니다. 이들은 이러한 특성들이 종종 상호 반대되는 경향이 있음(예: 결합 친화도를 높이면 용해도가 낮아지는 경우)을 강조하며, 이로 인해 "Pareto optimal" 화합물을 찾는 과정은 고해상도 모델링이 필요한 복잡한 최적화 문제임을 강조합니다.

실험실 데이터와의 통합

Genesis는 Insight와 같은 기업과 파트너십을 것을 통해 AI 예측과 물리적 합성을 위한 긴밀한 피드백 루프를를 만들어냅니다.

"우리는 design-make-test-analyze 사이클을 가능한 한 신속하게 운영하고, 실험실에서 관찰되는 결과에 기반하여 모델을 지속적으로 미세 조정(fine-tune)하고 싶습니다..."

이 파트너십을 통해 Genesis는 강화 학습(RL)을 통해 실제 생화학 및 세포 분석 결과에 기반하여 모델을 성능을 개선할 수 있으며, 이는 높은 가의성(false-positive) 비율을 겪는 경우가 많은 고처리량 스크리닝(high-throughput screens)에 대한 의존도를 낮출 수 있습니다.

Sources