

文献来源: Han Y, Tsenkov MI, Venanzi NAE, et al. AlphaFold Database expands to proteome-scale quaternary structures. bioRxiv (2026). https://doi.org/10.64898/2026.03.27.714458 预印本发布时间: 2026年3月29日 通讯作者: Sameer Velankar(EMBL-EBI)、Martin Steinegger(首尔国立大学)、Jennifer Fleming(EMBL-EBI)、Milot Mirdita(成均馆大学)、Christian Dallago(NVIDIA)
AlphaFold2 的问世开创了蛋白质单体三维结构预测的新时代,使研究者得以以前所未有的规模获取蛋白质结构信息。然而,生物学现实是:蛋白质极少以孤立单体的形式发挥功能,绝大多数细胞过程由蛋白质复合物——即蛋白质四级结构——所驱动。蛋白质-蛋白质相互作用(PPI)界面是信号传导、基因表达调控、酶催化、免疫识别等几乎所有核心生物过程的结构基础,同时也是药物设计的重要靶点。
本文介绍的工作,由首尔国立大学、EMBL-EBI、NVIDIA 与 Google DeepMind 等机构联合完成,是迄今为止规模最大的蛋白质复合物结构预测研究,将 AlphaFold 蛋白质结构数据库(AFDB)从单体扩展至蛋白质组规模的四级结构,系统性地弥补了结构互作组(structural interactome)的覆盖空白。

蛋白质数据库(PDB)是存储实验测定结构的权威数据库,但其对蛋白质-蛋白质相互作用界面的覆盖极为有限。大量已在 STRING、IntAct 等数据库中记录的相互作用,缺乏对应的三维结构信息。这一结构空白对以下领域构成根本性瓶颈:
尽管 AlphaFold-Multimer(2021)、RoseTTAFold 等方法已证明高置信度复合物预测的可行性,但此前的蛋白质组规模研究普遍存在以下问题:
类型 | 数量 | 来源 |
|---|---|---|
同源二聚体(homodimers) | 23,441,822 | UniProt 4,777 个蛋白质组(含 Swiss-Prot) |
异源二聚体(heterodimers) | 7,620,644 | STRING 物理相互作用注释 |
总计 | ~31,062,466 | — |
蛋白质组覆盖范围包括:
序列长度限制:单体 15–1,500 个氨基酸;复合物最大 3,000 个氨基酸(两链之和)。
异源二聚体候选对从 STRING v12.0 物理相互作用数据集提取。研究者刻意不设置 STRING 分值阈值,以最大化覆盖度,确保对重点蛋白质组的无偏探索——这与多数此前研究的策略不同,后者通常在 STRING score > 500 或 > 700 处截断。
STRING ID 到 UniProt 登录号的映射采用三步级联策略:
最终映射率:模式生物集 73.1%,WHO 健康蛋白质组集 82.4%,去冗余后获得 7,620,644 个候选异源二聚体。
使用 MMseqs2-GPU(ColabFold 1.6.0 预发布版)生成多序列比对(MSA):
两套推理系统并行使用:
ColabFold(主用于同源二聚体)
--skip-output msa,plots,pae_json,只保留 .pdb 和 .json 文件,显著减少 I/O 开销OpenFold(集成 NVIDIA TensorRT + cuEquivariance)
开发了一套 AFDB 集成工具包(AFDB-Integration-Kit),涵盖:
torch_cluster.radius_graph 执行原子距离核计算;在模型默认输出的 pLDDT 和 ipTM 之外,研究团队额外计算了以下指标:
指标 | 全称 | 说明 |
|---|---|---|
ipSAE | Interface predicted Score from Aligned Errors | 基于 PAE 矩阵的界面置信度评分,具有方向性,分别计算 A→B 和 B→A |
ipSAEmin | — | 取 ipSAE(A→B) 和 ipSAE(B→A) 的较小值,作为保守估计 |
pDockQ2 | — | 基于界面残基接触的对接质量评分 |
LIS / LISmin | Local Interaction Score | 局部相互作用评分及其最小值 |
clashbackbone | — | 主链原子碰撞数 |
clashheavy-atom | — | 重原子碰撞数 |
验证数据集构建:
指标比较: 对 ipTM、ipSAEmin、LISmin、pDockQ2 四项指标分别计算 precision-recall-F1 曲线。ipSAEmin 表现出最清晰的分布分离和最稳定的 F1 平台期。

最终高置信度标准(三项联合):
在 ipSAEmin = 0.6 阈值处:精确率(Precision)= 0.859,召回率(Recall)= 0.655,F1 = 0.744
pLDDTavg ≥ 70 额外排除了约 15% 的数据,与 AFDB 单体高置信度标准保持一致。clash 过滤进一步去除空间冲突严重的模型。
为方便非专业用户解读,AFDB 将同源二聚体按 ipSAEmin 进一步分为三个展示级别:
级别 | ipSAEmin 范围 | 解读建议 | 条目数 |
|---|---|---|---|
极高置信度(Very High Confidence) | ≥ 0.8 | 界面精度高,可直接用于机制分析 | 972,625 |
置信(Confident) | 0.7 – < 0.8 | 相互作用正确,界面解析良好概率高 | 438,879 |
低置信度(Low Confidence) | 0.6 – < 0.7 | 存在相互作用信号,建议谨慎解读 | 342,738 |
序列聚类内结构一致性:
对高置信度同源二聚体集,用 MMseqs2 以 98% 序列一致性、95% 覆盖度聚类,得到 1,429,305 个聚类(148,148 个非单例聚类,平均聚类大小 2.96)。将每个成员结构与聚类代表用 Foldseek Multimer 对齐:95.9% 的复合物达到查询归一化或靶标归一化的复合 TM-score > 0.8,证明数据集内部结构一致性良好。
同一二聚体两链间一致性:
用 Foldseek 对每个预测同源二聚体的 A、B 两链进行结构对齐:98.81% 的预测达到 TM-score > 0.8,进一步确认预测结果可靠。
分类群 | 高置信度比例 | 主要原因 |
|---|---|---|
古菌(Archaea) | ~28.4% | 蛋白质结构紧凑,同源寡聚体普遍 |
细菌(Bacteria) | ~28.1% | 同上 |
真菌(Fungi) | ~11.3% | 蛋白质较长,多结构域,无序区增多 |
后生动物(Metazoa) | ~6.7% | 多结构域、高度无序,更多异源复合物 |
绿色植物(Viridiplantae) | ~6.9% | 同上 |
病毒(Viruses) | ~6.7% | — |
古菌和细菌的成功率是后生动物的 3 倍以上,反映了真核蛋白质在进化过程中获得了更长、更复杂、更多无序区域的结构特征,且功能上更依赖异源复合物组装。
对 7,620,644 个异源二聚体应用与同源二聚体相同的过滤标准,得到 56,956 个暂定高置信度预测。研究发现:

链间序列相似性(x 轴): 序列一致性越高,高置信度预测率越高; 链长差异(y 轴): 两链绝对长度差越小,预测成功率越高。
两者效应独立存在:即便在低序列相似性区间(如 0.2–0.4),链长差异对预测成功率的负面影响依然显著。
关键局限: 当前过滤标准(源自同源二聚体校准)偏向于"类同源二聚体"特性(链间相似性高、长度对称),对典型异源二聚体(两链差异显著)存在系统性偏倚。作者因此将此批结构标注为"暂定高置信度",计划在后续版本中专门针对异源二聚体进行置信度重校准。
使用 Foldseek Multimercluster 对 1,811,201 个结构(1,754,242 同源 + 56,959 异源)进行聚类,参数:
-c 0.6)--interface-lddt-threshold 0.3)--chain-tm-threshold 0.7)
非单例聚类表现出显著的幂律分布:
这表明蛋白质复合物拓扑结构空间具有高度集中性——少数普遍性折叠模式主导了大量生物学实例。
以 Foldseek Multimer TM-score ≥ 0.65 为阈值搜索 PDB100:
基于 NCBI Taxonomy 计算各聚类的最低共同祖先(LCA):
本节选取五个案例,展示四级结构预测相对三级结构预测的独特信息增益。
蛋白质: 盘基网柄菌(Dictyostelium discoideum)转录延伸因子 Eaf N端结构域蛋白(Q55DI5)
单体预测(AF-Q55DI5-F1) | 同源二聚体预测 | |
|---|---|---|
pLDDTavg | 50.56 | 86.06 |
结构特征 | β-折叠片段破碎,无完整折叠 | 通过结构域互换(domain swapping)形成完整折叠 |
两条链相互提供对方所需的结构元件,折叠横跨两条链而非存在于单条链内。Foldseek 搜索 PDB 发现相似架构(7okx),其折叠同样跨链形成,支持该预测的可靠性。
意义: 单体预测不仅低估,甚至可能给出根本错误的结构图像;结构域互换类折叠必须在复合物语境中才能被正确识别。

蛋白质:Fonsecaea pedrosoi 自噬相关蛋白 33(A0A0D2GLV4)
单体预测 | 同源二聚体预测 | |
|---|---|---|
pLDDTavg | 58.91 | 76.91 |
ipSAEmin | — | 0.74 |
结构特征 | 四螺旋束存在但置信度低 | 两个四螺旋束形成连贯的跨膜组件,膜边界清晰 |
二聚体预测中,透射螺旋区域的空间跨度为 34–39 Å,与脂质双分子层核心厚度(~30–40 Å)高度吻合,合理界定了膜蛋白的跨膜范围。
意义: 对某些膜蛋白,单体预测可以恢复核心拓扑,但只有寡聚体模型才能充分解析完整组装体及其膜定位方式。
蛋白质:Sporothrix schenckii AB 水解酶-1 结构域蛋白(U7PMA7)
单体预测(AF-U7PMA7-F1) | 同源二聚体预测 | |
|---|---|---|
pLDDTavg | 90.75 | 94.55 |
ipSAEmin | — | 0.80 |
改善之处 | PAE 图中结构域间不确定性偏高 | PAE 矩阵不确定性显著降低,结构域间相对位置更精确 |
意义: 即使单体预测已有较高置信度,二聚体建模仍可通过约束结构域间相对排列提供额外信息,这对理解跨结构域的变构效应和界面细节尤为重要。
蛋白质: 支原体(Mycoplasma genitalium)HTH 型转录调控因子 MG101(P47347)
单体预测 | 同源二聚体预测 | |
|---|---|---|
pLDDTavg | 56.91 | 85.58 |
ipSAEmin | — | 0.63 |
HTH(Helix-Turn-Helix)转录因子普遍以二聚体形式与 DNA 结合,单体状态下折叠不完整符合预期。ipSAEmin = 0.63 偏低,作者认为这可能源于完整功能复合物还需要 DNA 参与,使界面预测存在固有不确定性。
意义: 对于生物学上以多聚体形式存在的蛋白质,强制以单体预测会导致低置信度,复合物预测可以从根本上改善结构质量并揭示其天然装配状态。
蛋白质: 布氏锥虫(Trypanosoma brucei brucei)未表征蛋白(Q57W69)
模型 | pLDDTavg | 说明 |
|---|---|---|
原始单体(AF-Q57W69-F1) | 68.38 | 默认 MSA |
优化单体(AF-0000000065721667-v1) | 80.12 | 使用锥虫目专用 MSA(Wheeler lab 策略) |
同源二聚体(AF-0000000066788887-v1) | 77.55 | ipSAEmin = 0.75 |
优化单体与二聚体之间高度一致:链 A 叠合 RMSD = 0.67 Å(166 个修剪原子对)。
意义: 对于进化上代表性不足的物种,MSA 的质量是结构预测的关键瓶颈;寡聚体语境与高质量 MSA 可以相互验证,为被忽视热带病病原体提供可靠的结构假说。
工具 | 获取地址 | 说明 |
|---|---|---|
ColabFold 1.6.0 | github.com/sokrypton/ColabFold | 含高通量改进 |
OpenFold(TRT+cuEq 版本) | github.com/aqlaboratory/openfold | Apache 2.0 |
cuEquivariance | docs.nvidia.com/cuda/cuequivariance | NVIDIA |
TensorRT | docs.nvidia.com/deeplearning/tensorrt | NVIDIA |
本工作实现了以下范式级突破:将蛋白质结构数据库从三级结构(单体)扩展至四级结构(复合物),并以此前实验数据库 1–3 个数量级的规模提供结构覆盖。案例研究表明,复合物语境不仅可以提升置信度,更可以根本性地改变对蛋白质折叠、组装和功能的解读。
1,811,201 个带有标准化置信度指标的复合物结构,为下一代蛋白质设计模型(如 Proteina、Boltz-2 等)、蛋白质-蛋白质对接方法、界面功能预测模型提供了前所未有的大规模训练和基准数据集。
WHO 30 种优先疾病蛋白质组(含被忽视热带病病原体)的系统性结构覆盖,为结核、疟疾、锥虫病等疾病的药物靶点发现提供了结构基础,有助于缩小发展中国家疾病与发达国家疾病之间的研究资源鸿沟。
维度 | 核心贡献 |
|---|---|
规模 | ~3100 万二聚体预测;180 万高置信度结构进入 AFDB |
物种覆盖 | 4,777 个蛋白质组,含 WHO 全球健康重点物种 |
方法论 | 系统性置信度校准(ipSAEmin);专用同源过滤 MSA 策略;GPU 加速后处理工具链 |
科学发现 | 结构域互换折叠仅在复合物中涌现;原核生物同源二聚化率显著高于真核;~9% 复合物跨超界保守 |
数据开放 | ModelCIF 格式、标准化元数据,支持搜索、可视化和批量下载 |
局限 | 异源二聚体校准待完善;高阶寡聚体尚未覆盖;预测精度不及实验 |
编者评价: 这是继 2021 年 AlphaFold2 论文和 AFDB 初始发布之后,计算结构生物学领域最具影响力的基础设施级工作之一。其意义不仅在于数量上的扩展,更在于将蛋白质结构研究的焦点系统性地推向了功能更为核心的"相互作用界面"层次,并为此提供了可公开访问、可重现、有标准化置信度注释的规模化数据资产。