Genesis Molecular AI: PEARLと拡散モデルによる創薬の進展
Genesis Molecular AI: PEARLと拡散モデルによる創薬の進展
3D構造予測のプリミティブとしての拡散モデル
Generative Adversarial Networks (GANs) はタンパク質やリガンドのシステムに対しては効果的ではないことが証明されましたが、拡散モデルは3D構造予測のための重要なプリミティブとして台頭しています。現在のAI研究の多くは大規模言語モデル (LLMs) に焦点を当てていますが、最も革新的な拡散モデルの研究の一部は、現在、分子生物学の分野、具体的にはタンパク質と低分子が3D空間でどのように相互作用するかを予測する分野で行われています。
PEARL: サブオングストローム分解能の実現
Genesis Molecular AIは、タンパク質配列とリガンド表現を入力として、それらの結合した3D構造を予測する構造予測モデル PEARL (Place Every Atom at the Right Location) を開発しました。
「スロップ」を超えて
従来のこの分野のベンチマークでは、精度として2Å RMSD (Root Mean Square Deviation) の閾値がよく使われます。Genesisは、2Åでは創薬において不十分であると主張しています。なぜなら、芳香環の反転のような重大な物理的エラーを許容してしまい、創薬化学者にとって構造仮説を完全に無効にしてしまう可能性があるからです。
PEARLは サブオングストローム (1Å) 分解能 を目指しています。このレベルの精度が必要な理由は、水素結合などの重要な分子間相互作用が、非常に狭い距離範囲 (通常は2.7Åから3.3Å) で発生するためです。わずか0.6Åのエラーでも、強い結合と、物理的な衝突、あるいは相互作用の完全な欠如との違いを生む可能性があります。
誘導適合 (Induced Fit) のモデリング
静的なモデルとは異なり、PEARLはタンパク質がリガンドを受け入れるためにどのように柔軟に変化するか、すなわち誘導適合 (induced fit) と呼ばれるプロセスをモデリングするように設計されています。最近の OpenBind benchmark (特に EV A721A protease target) におけるテストでは、PEARLはタンパク質内の柔軟なループの動きを予測する優れた能力を示し、トレーニング中に見ていないターゲットに対して他の共折り畳み (co-folding) モデルを凌駕しました。
PEARLのアーキテクチャと学習戦略
スケーリングと合成データ
結晶構造の公開データベース (PDB) は比較的小さく (約200,000構造)、成長も緩やかであるため、Genesisは物理ベースのシミュレーションを使用して合成学習データを生成しています。これにより、モデルは実験データのみを使用する場合よりもはるかに大規模な分子挙動のセットから学習することが可能になります。
推論時のスケーリング
高度なLLMsにおける「思考トークン」と同様に、Genesisは推論時のスケーリングを採用しています。モデルは、予測された構造を反復的に洗練させる diffusion-based head を使用します。このプロセスでは、物理ベースのガイダンスが使用され、モデルを物理的に妥当な出力へと導くことで、全体的なパフォーマンスを向上させます。
SAPPHIRE: エージェンティックな創薬
Genesisは、創薬の単調な作業を自動化するために設計されたエージェンティックなプラットフォーム SAPPHIRE を開発しています。
- Orchestration: SAPPHIREはLLMを使用して、一連の専門的なツール (PEARLやADMET予測モデルを含む) をオーケストレーションします。
- Hypothesis Generation: このエージェントは、予測された結晶構造を分析し、結合に関する仮説を立て、新しい分子候補を提案することができます。
- Strategic Direction: 目標は人間の科学者を置き換えることではなく、創薬化学者やCAD科学者がグランドストラテジストとして機能し、エージェントが反復的なdesign-make-test-analyzeサイクルを実行する間、方向性を与えることです。
構造を超えて: ADMET予測
3Dポーズの予測は、創薬のプロセスの一部に過ぎません。実行可能な薬は、ADMET 属性 (吸収、分布、代謝、排泄、毒性) も満たさなければなりません。
Genesisは、マルチタスク・グラフニューラルネットワークを使用して、溶解度や経口バイオアベイラビリティなど、30種類以上の異なる特性を予測します。彼らは、これらの特性がしばしば反相関の関係にある (例: 結合親和性の向上は溶解度の低下を招くことが多い) ことを強調しており、これによって「パレート最適」な化合物を探索することが、高分解能モデリングを必要とする複雑な最適化問題となることを示しています。
ウェット・ラボ・データとの統合
Genesisは、Insight のような企業と提携し、AI予測と物理的な合成の間で緊密なフィードバック・ループをcreateします。
"We want to have design, make, test, analyze cycles that are as rapid as possible and continuously fine-tune... the models based on what we see in the lab."
この提携により、Genesisは強化学習 (RL) を用いて、実際の生化学的および細胞アッセイの結果に基づいてモデルを改善することができ、高い偽陽性率に割賦されることが多い高スループットスクリーニングへの依存を減らすことができます。