AlphaFold와 과학을 위한 AI의 미래: John Jumper와의 대화

AlphaFold와 과학을 위한 AI의 미래: John Jumper와의 대화

구조생물학에서 AlphaFold의 역할

AlphaFold는 아미노산 서열로부터 단백질의 3차원 구조를 예측하도록 설계된 특수 머신러닝 시스템입니다. 흔히 "단백질 접힘 문제"에 대한 해결책으로 묘사되지만, 실제로는 특정 종류의 구조생물학 측정값을 고정밀로 예측하는 도구라고 보는 것이 더 정확합니다.

수십 년 동안 단백질 구조를 규명하려면 X-선 결정학과 같은 비용이 많이 들고 시간이 오래 걸리는 실험 방법이 필요했으며, 한 구조당 약 $100,000의 비용과 1년 정도가 소요되었습니다. AlphaFold는 이 시간을 몇 분으로 단축시켜 2억 개가 넘는 단백질 구조를 예측할 수 있게 했습니다. 이 능력은 생물학 연구의 출발점으로 활용되어 과학자들이 가설을 세우고 이를 목표 지향적인 실험으로 검증할 수 있게 합니다.

아키텍처와 기술적 진화

AlphaFold의 성공은 단일 아키텍처 혁신이라기보다 생물학적 가설, 기하학적 제약, 그리고 가혹한 실증 테스트의 결합 결과였습니다.

AlphaFold 2: Evoformer와 Geometry

AlphaFold 2는 AlphaFold 1에서 사용된 범용 CNN에서 벗어나 맞춤형 아키텍처로 전환했습니다. 주요 구성 요소는 다음과 같습니다:

  • Evoformer: 축 방향 어텐션을 사용해 진화 데이터(다중 서열 정렬, MSA)와 기하학적 표현 사이에 "대화"를 촉진하는 트렁크 아키텍처.
  • Invariant Point Attention (IPA): 모델이 단백질 백본에 정렬된 로컬 기준 프레임 내의 점들에 대해 작동하도록 하는 메커니즘.
  • FAPE (Frame Aligned Point Error): 각 잔기의 기준 프레임 내 점들 사이 거리를 측정하는 핵심 손실 함수로, 전역 좌표보다 훈련 신호가 더 효과적입니다.

Ablation 통찰과 "Equivariance Story"

John Jumper는 기하학적 딥러닝과 SE(3) 등변성(equivariance)이 AlphaFold 2의 성공에 자주 언급되지만, ablation 연구에서는 그 영향이 상대적으로 작았다고 지적합니다. 등변성을 제거하면 GDT 스코어가 약 2.5점 감소했지만, AlphaFold 1 대비 전체 향상은 약 30점에 달했습니다. 성능 향상의 주요 동인은 Evoformer와 전체 시스템 통합이었습니다.

AlphaFold 3와 Diffusion

AlphaFold 3는 "단백질 시네마틱 유니버스"를 확장해 리간드, DNA, RNA, 그리고 소분자(약물)를 포함합니다. 최종 출력에 diffusion 모델을 기술적으로 활용하지만, Jumper는 이것이 생성 이미지 스타일 모델이 아니라고 주장합니다. diffusion 이전의 거대한 네트워크가 전체 구조를 결정하고, diffusion 메커니즘은 로컬 디테일을 정제하고 결합 거리 등을 다루는 "기하학화 엔진" 역할을 합니다.

제한점과 "좁은 예측기" 철학

AlphaFold는 세포 모델도, 접힘 과정의 시뮬레이션도 아닙니다. 최종 실험 결과를 예측하는 도구입니다.

  • 동역학 부재: 단백질이 시간에 따라 어떻게 움직이고 형태를 바꾸는지는 포착하지 못합니다.
  • 실험적 격차: Jumper는 특정 약물 표적에 대해 모델이 "10번 중 9번은 틀릴 수 있다"고 말합니다. 그 가치는 탐색 공간을 좁혀 과학자들이 "빠르게 실패"함으로써 "엄청나게 생산적"이 되게 하는 데 있습니다.
  • 예측 vs. 제어 vs. 이해: Jumper는 이 세 가지 능력을 구분합니다. AlphaFold는 예측(결과가 무엇일까?)과 제어(결과를 어떻게 바꿀까?)를 제공하지만, 이해(소통 가능한 사실 집합을 도출하는 행위)는 여전히 인간이 주도해야 합니다.

"The Bitter Lesson"에 도전

"The Bitter Lesson"은 계산을 활용한 범용 방법(예: 스케일링 법칙)이 결국 인간이 만든 휴리스틱을 능가한다는 이론입니다. Jumper는 AlphaFold 2가 그 반대의 사례라고 주장합니다. 깊은 도메인‑특화 엔지니어링과 생물학적 가설이 필수적이었던 시스템입니다.

그는 데이터가 유한하기 때문에 아키텍처 연구가 여전히 중요하다고 강조합니다. 동일한 훈련 데이터를 사용했음에도 AlphaFold 2가 AlphaFold 1보다 크게 앞선 것은 아키텍처 개선이 "데이터 100배 증가"와 동등할 수 있음을 보여줍니다.

실제 영향: BioStruct Africa

AlphaFold의 유용성은 고자원 연구실에만 국한되지 않습니다. BioStruct Africa의 Emmanuel Nji는 이 도구가 비싼 싱크로트론이나 cryo‑EM 시설에 접근할 수 없는 지역에서도 구조생물학을 민주화한다고 강조합니다. 제한된 실험 데이터와 AlphaFold 예측을 결합하면 수년간의 작업을 몇 개월로 압축해 말라리아와 HIV와 같이 아프리카에서 흔한 질병의 약물 발견을 가속화할 수 있습니다.

요약

노벨상 수상자인 John Jumper는 AlphaFold의 아키텍처, 세포 모델이 아닌 좁은 예측기로서의 한계, 그리고 일반‑목적 AI 추세에도 불구하고 도메인‑특화 엔지니어링이 과학적 돌파구에 여전히 핵심임을 논의합니다.

제목

AlphaFold와 과학을 위한 AI의 미래: John Jumper와의 대화

Sources