

论文信息 标题:Physics-Grounded Evaluation to Guide Accurate Biomolecular Prediction 作者:Ningyi Lyu†, Siyuan Du†, Qianzhen Shao, Zhongyue Yang, Jianpeng Ma, Daniel Herschlag 机构:复旦大学 · 斯坦福大学 · 范德堡大学 来源:bioRxiv 预印本(2026.03.25)|DOI: 10.1101/2025.06.30.662466
AlphaFold2(2021)的出现标志着蛋白质结构预测进入了一个新纪元。凭借对数百万蛋白质的高精度预测,它在 CASP14 竞赛中以压倒性优势超越了所有传统方法,并由此催生了 AlphaFold3、ESMFold、RoseTTAFold All-Atom 等一系列后续模型。
然而,在巨大的成功光环之下,一个根本性问题始终悬而未决:
这些深度学习模型,究竟是在「记忆」结构数据,还是真正「学到」了支配生物分子行为的物理规律?
这一问题的答案,对于模型能否可靠地迁移至配体结合亲和力预测、突变效应、酶催化机制分析等下游任务至关重要。
当前评估生物分子预测模型最常用的指标是 RMSD(均方根偏差)——即预测结构与实验结构之间所有对应原子的平均位移距离。
RMSD 有其价值,但作者指出了一个致命的盲区:RMSD 对物理合理性完全不敏感。
以键扭转角为例说明(论文图1b):
这说明 RMSD 不仅无法捕捉能量上的错误,甚至会在方向上误导模型优化。更高的 RMSD 不等于更差的物理合理性,反之亦然。


蛋白质的所有性质——折叠稳定性、配体结合亲和力、变构调控、酶催化活性——都由原子级别的相互作用网络及其能量决定。只有模型真正学到了这套物理规律,才有可能:
研究团队放弃了坐标距离指标,转而直接测量以下物理化学量,它们直接对应分子力学能量函数中的各项:
相互作用类型 | 评估指标 | 物理意义 |
|---|---|---|
共价键 | 键长(Å)、键角(°) | 偏离理想值意味着局部应变能 |
键扭转 | 扭转角(°)、旋转异构体状态 | staggered vs. eclipsed,决定侧链构象库 |
氢键 | 供体-受体距离(Å)、D-H···A 角度(°) | 方向性与距离决定氢键强度 |
范德华相互作用 | 原子间接触距离(Å)vs. 理想 vdW 距离 | 偏离 Lennard-Jones 极小值意味着排斥或接触缺失 |
所有分布均来源于知识库势能函数(基于 PDB 数据,温度 298 K),并通过 Boltzmann 关系转换为能量单位(kcal/mol),从而赋予分布偏差以物理可解释性。
为区分模型性能与随机预测,研究设计了两类对照基线:
以 AlphaFold3 为主要示例,三个模型均展现出对基础物理规律的一定掌握:
骨架构象:
共价键几何:
非共价相互作用定性规律:


尽管定性规律基本正确,对分布峰值位置和宽度的精量分析揭示了显著偏差:
由于共价键几何在晶体结构精修中通常受约束,且数据量极大,这些偏差更可能源于模型本身而非训练数据的噪声。
范德华相互作用:
氢键:
几乎所有(96%)骨架·骨架氢键均在正确的原子对之间形成,这与 AF3 在蛋白质折叠预测上的卓越表现一致。
相互作用类型 | AF3 遗漏率(PDB 存在但 AF3 无) | AF3 幻觉率(AF3 有但 PDB 无) |
|---|---|---|
骨架·骨架氢键 | 4% | 4% |
骨架·侧链氢键 | 21% | 12% |
侧链·侧链氢键 | 32% | 23% |
侧链 vdW(C·S) | ~22% | ~16% |
侧链 vdW(C·O) | ~31% | ~22% |
侧链 vdW(C·N) | ~26% | ~16% |
即便是 AF3 正确识别的相互作用对,其几何参数仍存在大量偏差:


AF3 对 χ₁–χ₄ 各位置的正确旋转异构体预测率分别为:
键位置 | AF3 正确率 | 基线(随机)正确率 |
|---|---|---|
χ₁ | 94% | ~33% |
χ₂ | 92% | ~33% |
χ₃ | 78% | ~33% |
χ₄ | 73% | ~33% |
随距骨架越远,准确率下降,可能因为:(1) 更大的构象空间;(2) 更多的相互作用影响;(3) 数据稀疏性。
在正确旋转异构体状态内,模型能否捕捉 eclipsed 等高能构象?
这表明模型对局部能量平衡的精细捕捉能力仍严重不足——而这正是预测侧链非共价相互作用的核心所在。
利用多温度(MT)X 射线晶体学数据(9 个蛋白质,分辨率 1.0–2.2 Å,200 K 以上采集),研究团队评估了 AF3 多次随机种子采样的构象多样性。
实验数据显示的多构象态:
AF3 随机采样的结果:

结论: AF3 的内部概率景观被严重压缩,即使使用随机种子多次采样,输出也几乎是确定性的。这对于需要捕捉构象灵活性的功能预测任务是重大局限。
ESMFold 在骨架构象和扭转角偏好方面表现与 AF2/AF3 相当,但在非共价相互作用上表现最差:
这与既往研究中 ESMFold 整体结构精度较低的结论一致,但本研究进一步定位了其主要错误来源——非共价成对相互作用。


AF2 在侧链·侧链氢键方面略好于 AF3(26% vs. 31%),这主要归功于其 AMBER 力场弛豫后处理步骤。
力场弛豫的效果与局限:
指标 | AF2 未弛豫 | AF2 弛豫后 |
|---|---|---|
侧链·侧链氢键遗漏率 | 48% | 24% |
侧链·侧链氢键幻觉率 | 19% | 26%(略有上升) |
vdW 遗漏率改善 | — | ~8% |
对 AF3 进行相同弛豫处理,结果与 AF2 相似(从 32% 降至 22%),弛豫后两者错误水平接近。
共同错误的惊人发现:
AF2 和 AF3 的共同错误覆盖令人警惕:
错误类型 | 共同错误比例 |
|---|---|
旋转异构体错误 | ~68%(5551/~9000 总错误中) |
共同错误中,两者预测了相同的错误旋转体 | 94% |
PDB 氢键被两者同时遗漏 | ~77% |
两者同时幻觉的氢键 | ~21% |
PDB vdW 被两者同时遗漏 | ~57% |
两者同时幻觉的 vdW | ~57% |
力场弛豫后,剩余错误仍大量重叠(见论文图S13)。
这一发现提示两种可能机制:(1) AF3 使用了 AF2-Multimer 的预测结果扩充训练集,引入了共同偏差;(2) 某些特定位点的能量平衡本身极难从 PDB 数据中学习。
当前模型的训练逻辑主要以坐标匹配为目标(如均方误差损失函数),而非直接优化物理相互作用的准确性。这导致:
这解释了为何模型在"大方向"上(正确旋转异构体状态)表现尚可,而在"精细能量"层面(eclipsed vs. staggered 的区分,氢键方向,vdW 距离精度)严重失准。
AlphaFold3 采用了基于扩散的全原子生成架构,可以不受预设约束地自由生成坐标。这带来:
这些发现对以下实际应用具有直接警示意义(见论文补充表1):
下游任务 | 受影响的主要因素 | 建议谨慎程度 |
|---|---|---|
配体对接与虚拟筛选 | 结合口袋侧链相互作用错误 | ⚠️ 高度谨慎 |
突变效应(ΔΔG)预测 | 突变位点局部相互作用网络失真 | ⚠️ 高度谨慎 |
蛋白质热稳定性预测 | 疏水核心 vdW 接触错误 | ⚠️ 中度谨慎 |
蛋白质-蛋白质相互作用界面 | 界面侧链氢键和极性接触错误 | ⚠️ 中度谨慎 |
蛋白质折叠拓扑预测 | 骨架构象整体可靠 | ✅ 相对可信 |
替代构象与变构研究 | 系综多样性严重低估 | ⚠️ 高度谨慎 |
本研究提出的框架天然可扩展至:
这一工作与小分子生成领域的发展脉络有深刻相似之处。早期分子生成模型(VAE、GAN 等)产生了大量含有非法价态和高应变几何的分子,被药物化学家视为"无用"。正是一系列以物理为核心的基准测试(Fréchet ChemNet Distance、GuacaMol、PoseBusters 等)的出现,推动了后续模型几乎完全消除价态错误、大幅减少高能构象,从而真正走向实用。
蛋白质结构预测领域正面临同样的转折点:从以坐标精度为中心的评估范式,转向以物理合理性和功能可预测性为中心的评估范式。
维度 | 核心结论 |
|---|---|
已学到的物理 | 骨架构象(Ramachandran 分布)、侧链旋转异构体状态(94% χ₁ 正确)、共价键长基本差异、vdW 定性规律 |
尚未学到的物理 | 精细能量平衡(eclipsed 构象预测仅 6% 正确)、氢键方向性、侧链 vdW 精确距离、构象系综多样性 |
错误规模 | 侧链·侧链氢键:AF2 26%,AF3 32%,ESM ~58%;vdW 类似量级 |
错误分布 | 全结构随机分布,pLDDT 无法识别 |
模型间关联 | AF2/AF3 共享 68% 旋转异构体错误,77% 共同遗漏相同氢键 |
力场弛豫效果 | 将 AF2 侧链氢键错误从 48% 降至 24%,但仍残留 >20% 错误,且引入新幻觉 |
系综生成 | 71% 的多构象侧链被 AF3 预测为单构象,内部概率景观过度收缩 |
应用启示 | 配体对接、突变效应等需谨慎;折叠拓扑预测相对可靠 |
改进方向 | 物理约束训练目标 + 系综训练数据 + 逐步评估驱动的开发范式 |