タンパク質に対する苦い教訓：ESMFold 2 とタンパク質生物学のワールドモデル

中核的主張：タンパク質生物学におけるスケーリング則

タンパク質生物学は、膨大な進化データで学習された汎用言語モデルが、明示的な人間設計の事前知識なしに深い生物学的理解を獲得できるというパラダイムシフトに突入しています。計算資源とデータをスケールさせることが手作業のヒューリスティックを一貫して上回るという「苦い教訓」を適用することで、BioHub は構造・機能を予測し、そして新規タンパク質を設計できるタンパク質生物学のワールドモデルを開発しました。

ESMC と ESMFold 2：ワールドモデルの構築

BioHub は ESMC（Evolutionary Scale Modeling ファミリーの第4世代）と ESMFold 2 をリリースしました。これらはタンパク質予測と設計のためのオープンサイエンスエンジンです。従来のモデルが Multiple Sequence Alignments（MSA）や強い帰納的バイアスに依存していたのに対し、これらのモデルは膨大なタンパク質配列で学習されたトランスフォーマーベースの言語モデルアーキテクチャを採用しています。

主な技術的成果

データ規模: 数十億のタンパク質配列で学習されており、メタゲノムデータ（熱水噴出口や深海など多様なバイオームからの配列）を大幅に統合しています。このシフトにより、従来のデータベース（UniRef など）中心のアプローチからメタゲノミクスへと移行し、以前のバージョン（ESM2）で見られた収束効果の減少を解消しました。
構造予測: ESMFold 2 は秒単位で原子レベルの構造予測を提供し、MSA が不要であるため前世代モデルよりもはるかに高速です。
包括的アトラス: BioHub は 68 億の非冗長タンパク質データベースから、70% 配列同一性でクラスタリングされた 11 億のタンパク質の予測構造を解決しました。
マルチマー機能: このモデルは、タンパク質間相互作用予測におけるオープンモデルの最先端を示しています。

機構的可解釈性とエマージェントな特徴

スパースオートエンコーダ（SAE）を用いて、BioHub は 60 億パラメータの ESMC モデルの表現空間を解析しました。彼らは「次トークン」予測タスクから自然に出現した階層的特徴を発見し、何十年にもわたる還元的生物学研究と鏡像的に一致することを示しました。

核求核エルボーの例

具体的な発見の一つは、モデルが「核求核エルボー」―コア機能モチーフ―を識別できることです。モデルは進化的に多様なタンパク質ファミリー間で全く異なる構造トポロジーを持つにもかかわらず、このモチーフを表す単一の特徴を学習しました。これは、モデルが配列類似性を超えて生物学的機能の潜在変数を獲得したことを示唆しています。

プログラマブルバイオロジーと治療設計

BioHub は「プログラマブルバイオロジー」へと進んでおり、ワールドモデルを探索空間として利用し、特定の設計基準を満たす分子を見つけ出すことを目指しています。

抗体（scFv）の設計

チームは ESMC を用いてシングルチェーン可変断片（scFv）を設計することに成功しました。抗体は多様性を獲得するために進化し、従来の MSA ベース予測に抵抗しやすいです。ESMC の表現空間は、医療機能に必要な治療用親和性を持つ抗体設計において、従来手法よりも効果的であることが証明されています。

将来像：タンパク質からバーチャルセルへ

Alex Rives は、データ生成、予測的デジタル表現、フィードバックループという三つの原則に基づく新しい科学パラダイムを提唱しています。

バーチャルバイオロジーイニシアチブ

BioHub は細胞スケールのデータ創出を加速するために 5 億ドルのイニシアチブを開始しました。内容は以下の通りです：

4 億ドル：内部データ作成と測定モダリティ拡張のための技術開発。
1 億ドル：外部データ生成活動の促進。

複雑性ラダーのスケーリング

分子モデルから「バーチャルセル」へ移行するため、BioHub は次の領域に注力しています：

介入バイオロジー: 介入実験をスケールさせ、細胞が新規介入にどう応答するかを観測。
空間バイオロジー: 細胞を単離状態ではなく、自然組織コンテキストで理解。
クロスモダリティ: ゲノム、エピゲノム、トランスクリプトーム、プロテオームを同時に測定し、細胞情報階層をマッピング。
フィードバックループ: AI と自動化ラボ、クライオ電子トモグラフィーを統合し、仮説をモデルが推論し実験で検証するアクティブラーニングシステムを構築。

タンパク質に対する苦い教訓：ESMFold 2 とタンパク質生物学のワールドモデル

タンパク質に対する苦い教訓：ESMFold 2 とタンパク質生物学のワールドモデル

中核的主張：タンパク質生物学におけるスケーリング則

ESMC と ESMFold 2：ワールドモデルの構築

主な技術的成果

機構的可解釈性とエマージェントな特徴

核求核エルボーの例

プログラマブルバイオロジーと治療設計

抗体（scFv）の設計

将来像：タンパク質からバーチャルセルへ

バーチャルバイオロジーイニシアチブ

複雑性ラダーのスケーリング

Sources