PPIFlow:フローマッチングとIn Silico成熟化によるバインダー設計

Pythonでインフォマティクス

深層学習を用いたタンパク質設計は、拡散モデル(Diffusion Models)により大きく前進しました。しかし、計算コストと生成精度は依然として課題です。また、計算機のみで高い結合親和性を持つバインダーを設計することは困難で、通常ウェット実験による最適化が必要です。本記事では、フローマッチング(Flow Matching)ベースの生成モデルとIn Silico成熟化戦略を統合したPPIFlowについて勉強しました。

※この記事の作成には、文章の校正の一部で生成AIを活用しています。最終的な内容は、全て筆者が確認・編集しています。

PPIFlow論文:Chen M., Tan C., et al. (2026) High-Affinity Protein Binder Design via Flow Matching and In Silico Maturation. bioRxiv. doi: 10.64898/2026.01.19.700484

PPIFlow GitHub(リポジトリ):PPIFlow https://github.com/Mingchenchen/PPIFlow

1. 研究の背景と目的

従来のRFdiffusion2に代表される拡散モデルベースの手法は、バックボーン生成において高い設計成功率を示しましたが、側鎖パッキングの精密な最適化が不十分であり、生成されたバインダーと標的の間に「親和性のギャップ」が残るという課題がありました。BindCraft3はAlphaFold2のハルシネーション機能を活用して高い実験的成功率を報告しましたが、フィルタリングに完全なAF2推論を繰り返すため計算コストが高い点が課題です。

PPIFlowは、SE(3)4上のフローマッチングによるバックボーン生成、エネルギーベースのアンカー残基固定と部分フロー(Partial Flow)による成熟化、そしてAlphaFold3の信頼度ヘッドのみを抽出した高速評価エンジンAF3Score5を統合することで、この課題に挑戦しています。

図1:PPIFlowの全体アーキテクチャ(フローマッチング→成熟化→AF3Score評価)
出典:PPIFlow論文 (Chen et al., 2026)

2. 論文のメソッドとリポジトリ実装の概要

🔬 フローマッチング (Flow Matching)

ノイズ分布からデータ分布への”連続的な写像(フロー)”を学習する生成モデルフレームワークです。拡散モデルがランダムなノイズ除去プロセスを学習するのに対し、フローマッチングはより単純で効率的な直線的(測地的)軌跡を学習でき、安定性が向上します。タンパク質設計では、SE(3)4群上のフローマッチングとして定式化することで、バックボーンの並進と回転を幾何学的に整合した形で生成できます。FrameFlow、FoldFlowなどの先行研究があります。

2.1 FlowModel:生成パイプラインの全体像

PPIFlowの生成モデルは、ノード特徴(各残基の状態)とエッジ特徴(残基対の関係)を入力し、Pairformerで幾何学的文脈を構築した後、IPA(Invariant Point Attention)で最終的なバックボーン座標を予測するパイプラインです。この処理の核心は models/flow_model_binder.pyFlowModel.forward() にあり、PairformerとIPAが直列に接続される部分がモデルの骨格を成しています。

# models/flow_model_binder.py — FlowModel.forward() より抜粋

# 剛体フレームの初期化(回転行列+並進ベクトル → SE(3)上のフレーム)
curr_rigids = du.create_rigid(rotmats_t, trans_t)
curr_rigids = self.rigids_ang_to_nm(curr_rigids)  # Å → nm へ単位変換

# Pairformerスタック:残基対表現 z と単一表現 s を交互更新
node_embed, edge_embed = checkpoint_fn(
    self.conditioning_pair_net,
    init_node_embed, init_edge_embed, motif_mask,
    False, False, False, False, None
)

# IPAスタック:幾何学的文脈から SE(3) 上の速度場を推定
pred_trans, pred_rotmats = checkpoint_fn(
    self.ipa_net,
    node_embed, edge_embed, curr_rigids,
    node_mask, diffuse_mask, edge_mask
)

論文の「SE(3)フローマッチングの順方向パス」の実装基盤です。diffuse_maskにより、標的タンパク質の残基は固定され、バインダー部分のみがフローに沿って生成される条件付き生成が実現されています。

2.2 Pairformer:インターフェースの幾何学的整合性

Pairformerは、AlphaFold3のアルゴリズム17をベースに、残基対表現(pair representation)z と単一表現(single representation)s を交互に更新するモジュールです。三角乗法更新(Triangle Multiplicative Update)→三角アテンション(Triangle Attention)→配列-構造バイアス注入という3段階が連続して適用されます。

# models/pairformer.py — PairformerBlock.forward() より抜粋

# 三角乗法更新:残基A-B, B-C → A-Cの関係を推論(三角形の整合性)
tmu_update = self.tri_mul_out(z, mask=pair_mask, inplace_safe=inplace_safe, _add_with_inplace=False)
z = z + self.dropout_row(tmu_update)
tmu_update = self.tri_mul_in(z, mask=pair_mask, inplace_safe=inplace_safe, _add_with_inplace=False)
z = z + self.dropout_row(tmu_update)

# 三角アテンション:インターフェース全体の「面」としての長距離依存性を学習
z = z + self.dropout_row(self.tri_att_start(z, mask=pair_mask, ...))
z = z.transpose(-2, -3)
z = z + self.dropout_row(self.tri_att_end(z, mask=pair_mask.transpose(-1, -2), ...))
z = z.transpose(-2, -3)

# 配列-構造バイアス注入:幾何情報 z を配列表現 s にフィードバック
if self.c_s > 0:
    s = s + self.attention_pair_bias(a=s, s=None, z=z)
    s = s + self.single_transition(s)

三角乗法更新により、3D座標の計算に至る以前に、「物理的にあり得るパッキング」が残基対表現として獲得されます。

2.3 IPAと部分フローによる成熟化

Pairformerで構築された幾何学的文脈は、models/ipa_pytorch.pyInvariantPointAttention クラスに渡されます。IPAは、抽象的な特徴量(スカラー)と実際の3D座標(ポイント)を同じアテンション機構内で融合させ、SE(3)4不変な形式でバックボーンの速度場を推定します。最終的な出力は BackboneUpdate クラス(6次元:並進3+回転3)として、フローマッチングの速度ベクトルに変換されます。

PPIFlowでは、バックボーン(主鎖)構造が得られます。In Silico成熟化では、得られたバックボーンに対して、ProteinMPNNやAbMPNNで配列群を生成し、FlowPacker6(これもflow matching !)で側鎖パッキングを行った立体構造を得ます。その後、AF3Score5による評価とRosettaで界面残基とその結合エネルギーを計算し、-5 REU未満の安定な寄与を示す「アンカー残基」を特定しています。このアンカー残基を固定し、sample_binder_partial.py でバックボーンを再生成する「部分フロー」を実行し、側鎖パッキングの改善とバックボーンの最適化を実施しています。

3. 実験的検証:治療標的に対するバインダー設計

PPIFlowの性能は、IL7RA、IFNAR2、IL17A、PD-L1、VEGFAなど7つの重要な治療標的に対するミニバインダー設計で検証されました。AF3Score5による高速スクリーニング(標準AF3の約100倍高速)で絞り込んだ候補30個を評価した結果、IFNAR2で1.38 pM、PDGFRとVEGFAでは1 pM以下という驚異的な結合親和性が達成されています。

さらに、VHHナノボディ設計では、CDR領域をPPIFlowで生成・成熟化し、240候補中33.8%が結合を示しています。

MotifBenchにおけるモチーフ足場設計タスクでも、PPIFlowはRFdiffusion2を上回る成功率(42.38 vs 28.6)を記録し、フローマッチングによる学習が、拡散モデルのランダムなノイズ除去よりも優位に働くことが示唆されています。


図2:7つの治療標的に対するミニバインダーの結合親和性(BLI解析結果)
出典:PPIFlow論文 (Chen et al., 2026)

4. まとめと将来展望

  • PPIFlowは、①SE(3)4フローマッチング、②ProteinMPNNとFlowpacker6、③エネルギーベースの成熟化、④AF3Score5による高速評価(*それでも、この評価過程に一番計算時間がかかるようです。)を統合し、計算機のみでピコモル級のバインダー設計を実現しています。
  • 現状はバックボーン生成モデルであり、側鎖配置はProteinMPNN等に依存しています。全原子(Full-atom)生成モデルへの拡張が論文で示唆されており、水素結合ネットワーク等の直接設計が期待されます。

参考文献

  1. Chen M., Tan C., et al. (2026) High-Affinity Protein Binder Design via Flow Matching and In Silico Maturation. bioRxiv. doi: 10.64898/2026.01.19.700484
  2. Watson J. L., et al. (2023) De novo design of protein structure and function with RFdiffusion. Nature 620, 1089–1100. doi: 10.1038/s41586-023-06415-8
  3. Pacesa M., et al. (2024) BindCraft: one-shot design of functional protein binders. bioRxiv. doi: 10.1101/2024.09.30.615802
  4. Yim J., et al. (2024) SE(3) Stochastic Flow Matching for Protein Backbone Generation. ICLR 2024. doi: 10.48550/arXiv.2310.02391
  5. Chen M., et al. (2025) AF3Score: A Score-Only Adaptation of AlphaFold3 for Biomolecular Structure Evaluation. bioRxiv. doi: 10.1101/2025.05.10.653251
  6. Lee J.S., Kim P.M. (2025) FlowPacker: protein side-chain packing with torsional flow matching. Bioinformatics, 41, btaf010, doi: 10.1093/bioinformatics/btaf010

コメント

タイトルとURLをコピーしました