Nat. Methods | AlphaFold作为先验驱动的实验结构解析

DrugAI

发布于 2026-04-13 15:43:08

1470

DRUGONE

机器学习的快速发展极大推动了结构生物学，使得仅依赖序列即可实现高精度蛋白结构预测。然而，在侧链排布、构象变化以及分子相互作用等方面仍存在明显局限，同时高质量实验数据的稀缺也限制了模型能力。另一方面，冷冻电镜、冷冻电子断层扫描以及高通量晶体学等实验技术正在产生大量结构数据，但将这些数据转化为可解释的原子模型仍然困难。

研究人员提出ROCKET框架，将实验观测直接融入蛋白结构预测过程中。该方法在不重新训练模型的情况下，通过在进化嵌入空间中优化结构，使预测结果与实验数据一致，从而捕捉AlphaFold难以表达的生物学相关构象变化。ROCKET能够实现自动化、高通量的结构建模，并为机器学习与实验数据的融合提供通用范式。

近年来，以AlphaFold2为代表的蛋白结构预测模型通过学习序列共进化信息，实现了接近实验精度的预测能力。但这些方法仍难以准确刻画侧链构象、功能相关动态以及大尺度构象变化。此外，这类模型高度依赖已有结构数据库，而能够反映不同功能状态和复杂相互作用的高质量数据仍然有限。

与此同时，结构生物学实验技术正在快速发展。例如，冷冻电镜能够在多种条件下解析蛋白结构，晶体学可用于药物筛选过程中的结构测定，而冷冻电子断层扫描则可在细胞环境中观察大分子复合体。这些技术为理解构象变化和分子组装提供了丰富信息，但实验数据往往分辨率有限或噪声较大，使得原子模型重建成为瓶颈。

传统结构优化方法通常在笛卡尔坐标空间中进行调整，难以处理大尺度结构重排，尤其是在低分辨率数据条件下更为困难。研究人员因此提出，将预训练模型中隐含的结构先验作为指导，可以比传统几何约束更有效地辅助实验结构解析。

方法

研究人员开发了ROCKET方法，将OpenFold模型与实验似然函数结合，在推理阶段直接优化结构预测结果。该方法通过调整多序列比对（MSA）的嵌入表示，使模型预测逐步逼近实验观测数据。在每次迭代中，模型生成结构预测，并根据实验数据计算一致性，再反向更新MSA表示，从而实现结构优化。该框架同时支持晶体学与冷冻电镜数据，并可扩展至其他实验类型。

图1: 基于ROCKET的数据驱动结构预测精修方法。

结果

ROCKET实现跨分辨率的结构建模能力

在高分辨率晶体学数据测试中，ROCKET能够系统性提升AlphaFold预测结构的准确性，使其更接近实验结构。特别是在初始预测偏差较大的情况下，ROCKET仍能有效纠正结构，显示出较强的鲁棒性。同时，在侧链与主链层面均显著改善与实验密度图的匹配程度。

图2： ROCKET在宽分辨率范围内稳定重建蛋白结构细节。

在低分辨率条件下仍能恢复正确构象

研究人员构建了多个降分辨率的冷冻电镜数据集，结果表明，即使在6–10 Å的低分辨率条件下，ROCKET仍能恢复蛋白的整体折叠与关键构象变化。例如，在转运蛋白和GroEL体系中，ROCKET能够从错误初始构象中恢复到实验观察状态，表明模型能够利用先验信息补充实验信号不足。

数据驱动优化提升模型置信度与结构质量

研究发现，ROCKET优化后的模型置信度与实验一致性呈正相关，说明实验数据可以引导模型探索更合理的构象空间。相比之下，仅依赖模型自身置信度进行优化无法达到类似效果，表明实验信息提供了关键的额外约束。

图3： ROCKET在前沿复杂结构建模任务中的应用。

在复杂结构解析任务中的表现

在多个具有挑战性的结构建模任务中，例如低分辨率断层扫描数据、存在构象异质性的晶体结构以及具有取向偏差的冷冻电镜数据，ROCKET均表现出优于传统方法的能力。该方法不仅能够恢复不同构象状态，还能够在噪声较大的区域避免过度拟合，从而保持结构合理性。

多体复合物与功能结构解析

研究人员进一步将ROCKET应用于多蛋白复合物和时间分辨结构数据中。结果表明，该方法能够准确捕捉蛋白-蛋白界面变化以及功能相关构象调整，并在缺乏显式配体信息的情况下恢复结合态结构。这展示了其在复杂生物体系中的广泛适用性。

图4： ROCKET实现低分辨率冷冻电镜数据下的ZPD丝状结构建模。

低分辨率数据中的结构重建能力

在一个低分辨率（约8.6 Å）的蛋白纤维结构建模任务中，ROCKET成功构建了完整模型，并在后续高分辨率数据验证中表现出良好一致性。这表明该方法能够从有限信息中恢复关键结构特征，并为后续实验提供可靠模型。

图5: 互信息揭示驱动构象转变的分布式残基信号。

讨论

研究人员提出的ROCKET框架展示了一种将机器学习模型与实验数据深度融合的新范式。通过将AlphaFold等预训练模型作为结构先验，并在推理过程中动态引入实验约束，可以显著提升结构解析的准确性和自动化程度。

该方法的核心优势在于无需重新训练模型即可实现与多种实验数据的整合，同时能够在低分辨率和高噪声条件下保持稳定表现。这不仅减少了对人工干预的依赖，也为高通量结构解析提供了可能。

未来，该框架有望扩展至更多数据类型，并结合更复杂的分子系统，为结构生物学研究和药物设计提供更强大的工具。总体而言，该研究标志着从“预测结构”向“数据驱动结构解析”的重要转变。

整理 | DrugOne团队

参考资料

Fadini, A., Li, M., McCoy, A.J. et al. AlphaFold as a prior: experimental structure determination conditioned on a pretrained neural network. Nat Methods (2026).

https://doi.org/10.1038/s41592-026-03047-4