

文献来源:Current Opinion in Structural Biology 2026, 98: 103272 DOI:10.1016/j.sbi.2026.103272 作者:Clayton W. Kosonocky¹, Sarah Alamdari², Kevin K. Yang², Ava P. Amini² 机构:¹ 德克萨斯大学奥斯汀分校;² Microsoft Research(剑桥)
近年来,AI蛋白质设计领域论文产出呈爆炸式增长,但绝大多数工作止步于计算层面的评估——模型生成的序列是否真的在实验室中起效,往往语焉不详。这篇综述恰好填补了这一空白:它系统梳理了横跨完整"数据→模型→实验"流程、并经过实验验证的AI蛋白质设计方法,提供了迄今为止最为全面的实验成功率参考数据库。
蛋白质设计的核心挑战在于导航氨基酸序列、三维结构与生物功能之间的复杂映射关系。
传统计算蛋白质设计依赖:
这些方法的主要瓶颈包括:计算成本高昂、难以大规模扩展、高度依赖高质量结构信息,以及对序列空间的采样效率低。
AI模型通过从大规模生物数据中直接学习序列—结构—功能关系,绕过了上述限制:
数据规模 | 资源 | 数量级 |
|---|---|---|
蛋白质结构 | 蛋白质数据库(PDB) | 数十万条 |
蛋白质序列 | UniRef / UniProt | 数亿至数十亿条 |
正是这种数据规模的优势,使得深度学习模型能够捕捉传统方法难以建模的统计规律。
作者将AI驱动蛋白质设计拆解为四个相互依存的核心环节:
数据集构建 ──▶ 模型训练 ──▶ 候选生成与筛选 ──▶ 实验验证
▲ │
└──────── 实验反馈回路 ◀──────────┘
数据质量是整个流程的根基。关键考量包括:
结构背景输入
│
▼
骨架生成模型(Backbone Design)
[RFdiffusion, Chai-2, LatentX...]
│
▼
固定骨架序列设计(Fixed-Backbone Sequence Design)
[ProteinMPNN, LigandMPNN, CARBonAra...]
│
▼
结构预测验证与筛选
[AlphaFold2, Boltz-1, ESMFold...]条件输入的演进:
序列语言模型完全绕过结构信息,直接在序列空间中操作:
值得关注的发现:序列语言模型在结合蛋白设计(传统上被视为结构任务)上展现出竞争力,可能源于模型从协同进化信号中隐式学习到了结构约束。
部分模型打破了结构/序列的二元划分:
典型的筛选流程(按计算成本递增):
验证的层次结构(分辨率递增,通量递减):
验证层次 | 方法 | 目的 |
|---|---|---|
表达验证 | SDS-PAGE, SEC | 确认正确尺寸、单分散性、无聚集 |
二级结构 | 圆二色谱(CD) | 快速评估折叠状态 |
结合亲和力 | SPR, BLI, YSD | 定量测定 Kd、kon、koff |
原子级结构 | X射线晶体学、冷冻电镜 | 验证结合模式的金标准 |
结合蛋白设计要求模型精确捕捉蛋白质—靶标界面的互补性,需要同时优化形状互补、静电相互作用和疏水效应。
方法策略 | 代表模型 | 核心思路 |
|---|---|---|
扩散骨架生成 | RFdiffusion, Chai-2, LatentX | 以靶标表面为条件,扩散生成兼容骨架 |
可微分优化 | BindCraft, Germinal | 反向传播梯度优化序列满足结构约束 |
表面指纹匹配 | dMaSIF | 学习几何表面特征,匹配互补界面 |
序列语言模型 | PepMLM, EvoDiff | 在靶标条件下生成结合肽/蛋白序列 |
多聚体结构预测 | AlphaProteo, PXDesign | 利用多聚体结构预测模型框架设计 |


TNF-α 的特殊性:在所有测试模型中,仅 Chai-2 成功生成了 TNF-α 结合蛋白,揭示了该靶标界面的独特挑战性(如高度平坦的结合表面)。
尽管 RoseTTAFold All-Atom、LigandMPNN、LASErMPNN 等模型已展示了蛋白质—小分子设计的初步成功,但成功率普遍低于蛋白质—蛋白质结合蛋白。根本原因在于:PDB中小分子配体的化学多样性覆盖极为有限,相对于真实化学空间的广度,训练数据严重不足。
抗体设计面临的技术障碍与一般结合蛋白存在本质差异:
数据层面:
模型层面:
近年关键进展在于将领域专属知识注入模型设计:

AI抗体设计正从 CDR 重设计向全流程设计演进,但以下属性仍面临数据限制:
酶设计在三个应用方向中挑战最大,因为它要求模型同时建模:
催化涉及瞬态、高能量中间体,这些信息难以从静态结构中直接推断,可能需要结合量子力学/分子力学(QM/MM)、密度泛函理论(DFT)等物理方法提供先验。
早期方法
├── 幻觉法(Hallucination):trRosetta 反向传播设计荧光素酶
└── 骨架扩散 + 固定催化残基:PLACER
│(限制:催化位点构象固定,设计空间受限)
▼
近期方法
├── 学习最优催化残基定位:RFdiffusion2
├── 全原子生物分子相互作用设计:RFdiffusion3
├── 催化基序骨架化:RiffDiff
└── 序列语言模型条件化生成:ZymCTRL, ProGen2, ProtGPT2
现有AI酶设计工具所覆盖的催化反应种类,仍仅是自然界已知酶反应的极小子集。突破方向在于:
维度 | 结合蛋白 | 抗体 | 酶 |
|---|---|---|---|
数据基础 | PDB复合物结构(丰富) | SAbDab结构 + 序列库 | PDB + 底物信息(稀缺) |
最高实验成功率 | ~88%(BHRF1) | ~70%(HER2 CDRH3) | ~100%(特定任务) |
结构验证 | 多个复合物 CryoEM/XRC | 少量CryoEM验证 | XRC(少数) |
通量瓶颈 | SPR/BLI可支持高通量 | 与结合蛋白相近 | 底物特异性实验,难以标准化 |
临床转化壁垒 | 免疫原性、体内特异性 | 人源化、可开发性 | 底物范围、稳定性 |
AI方法成熟度 | 最高 | 高,快速发展中 | 相对早期 |
文章最重要的论断之一:
进展的根本驱动力不是模型规模,而是实验数据的质量与覆盖度。
结合蛋白设计之所以进展最快,并非因为模型最复杂,而是因为 SPR/BLI 等结合实验高度可扩展,能够为模型提供大规模定量反馈。相比之下,酶设计因底物多样、缺乏标准化实验平台,进展相对分散。
文章标题"Closing the Loop"不只是比喻:
计算假设 ──▶ 实验验证 ──▶ 数据反馈 ──▶ 模型迭代改进
▲ │
└────────────────────────┘当前的主要断点:
这篇综述的价值在于用实验数据说话。它提醒我们:在AI蛋白质设计领域,模型架构的创新固然重要,但实验反馈的质量、数量与多样性才是决定进步速度的真正瓶颈。
未来的突破不会来自单一的计算突破,而将来自计算与实验的深度协同——一个持续运转、不断校准的"闭合回路"。