

论文全称:Two-dimensional Geometric Template Diffusion for Boosting Single-Sequence Protein Structure Prediction 发表期刊:Nature Machine Intelligence(2026) DOI:10.1038/s42256-026-01210-2 接收日期:2026 年 2 月 25 日 | 在线发表:2026 年 4 月 1 日 代码链接:https://doi.org/10.5281/zenodo.18454943
近年来,AI 驱动的蛋白质结构预测取得了里程碑式的进展。当前主流方法可归为两大范式:
同源依赖范式(Homology-based Methods)
以 AlphaFold2、AlphaFold3、RoseTTAFold 为代表。这类方法需要从 UniRef、PDB 等生物数据库中检索多序列比对(Multiple Sequence Alignment, MSA)和三维结构模板(3D structural template),并将其作为核心输入特征。其核心假设是:同源序列的共进化信息蕴含了蛋白质折叠的约束。
蛋白质语言模型范式(PLM-based Methods)
以 ESMFold、OmegaFold、RGN2、trRosettaX-single 为代表。这类方法完全基于氨基酸序列的文本信息,无需同源检索,可显著加速特征提取流程。然而,这些模型普遍采用深度堆叠的 Transformer 架构,以 ESMFold 为例,其 Evoformer 中的三角注意力机制(triangular attention)的时间复杂度为 O(n³),在长序列蛋白上面临严重的内存和计算瓶颈。
痛点一:同源依赖导致泛化性差
同源依赖方法对「孤儿蛋白」(Orphan proteins,即在数据库中缺乏同源序列的蛋白质)及快速演化的病毒蛋白预测效果极差。论文实验数据显示,在 CASP14 数据集上,移除三维结构模板后:
在 CASP15 数据集上,情况更为严峻:
对于真正缺乏同源信息的孤儿蛋白(Orphan 数据集),AlphaFold2(全同源模式)的 TM-score 仅为 0.37,AlphaFold3 为 0.41,远低于其在 CASP 数据集上的表现。

痛点二:PLM 方法计算成本居高不下
以 ESMFold 为代表的 PLM 方法,虽然无需同源检索,但其显存需求高达 8—20 GB(随序列长度线性—超线性增长),且推理时间随序列长度呈近立方级增长,对于含 500 个残基的蛋白质约需 100 秒。这使得大规模蛋白质结构预测任务,以及资源受限的学术机构的使用,都面临较大障碍。
能否在不依赖同源数据库的前提下,同时实现高精度、低资源消耗、快速推理的单序列蛋白质结构预测?
TDFold(Two-Dimensional Geometric Template Diffusion Fold)提出了一种端到端的两阶段网络架构,将视觉生成模型引入蛋白质结构预测领域。
氨基酸序列(单序列输入)
│
▼
┌─────────────────────────────────┐
│ 阶段一:2D 几何模板扩散模块 │
│ · 序列 → 文本提示词(Text LoRA) │
│ · SD 模型(冻结)+ UNet LoRA │
│ · 输出:残基间几何矩阵图像 │
│ - 距离矩阵 dC(Cβ–Cβ) │
│ - 方向矩阵 ω、θ、ϕ │
└─────────────────────────────────┘
│
▼(2D 几何模板)
┌─────────────────────────────────┐
│ 阶段二:序列-几何协同学习(SCL) │
│ · 残基级图学习分支 │
│ · 原子级图学习分支 │
│ · 变分融合框架 │
│ · SE(3)-EGNN 全原子坐标预测 │
└─────────────────────────────────┘
│
▼
三维蛋白质结构(全原子坐标)
优势维度 | TDFold | ESMFold | AlphaFold2 |
|---|---|---|---|
单序列预测精度 | ★★★★★ | ★★★★ | ★★(无模板模式) |
GPU 显存(500残基) | ~7 GB | ~20 GB | ~12 GB |
推理时间(500残基) | ~10 s | ~100 s | ~1000 s |
训练资源需求 | 单卡 4090,约1周 | 大规模集群 | 大规模集群 |
孤儿蛋白支持 | 优秀 | 一般 | 差 |
论文的核心创新在于一个关键观察:残基间几何信息(inter-residue geometries)可以被编码为多通道的类图像特征矩阵。
具体而言,对于一个含 N 个残基的蛋白质,TDFold 定义了以下四种几何描述子:
几何量 | 物理含义 | 矩阵维度 | 离散化区间数 |
|---|---|---|---|
(Cβ–Cβ距离) | 残基对之间的空间距离 | N×N | 36(2.5Å–20.5Å,步长0.5Å) |
(Cα–Cβ–Cβ–Cα二面角) | 残基相对旋转 | N×N | 36(0°–360°) |
(N–Cα–Cβ–Cβ二面角) | 骨架方向 | N×N | 36(0°–360°) |
(Cα–Cβ–Cβ平面角) | 残基对平面取向 | N×N | 18(0°–180°) |
由于 SD 模型要求输入为离散像素值(0–255),而几何量为连续值,需进行数据类型转换(Algorithm 1):
距离转换:
角度转换:
像素映射: 的矩阵值乘以 7(范围扩展至 0–252); 乘以 14(同样映射至 0–252)。最后,每种几何量的矩阵被复制为三通道,生成 RGB 图像,可直接输入 SD 模型处理。
为什么选择 SD 模型?
Stable Diffusion 具备强大的文本-图像协同建模能力,可以学习文本提示(氨基酸序列)与多通道矩阵(几何图像)之间的复杂分布映射。然而,SD 模型原本在通用图像-文本对上训练,直接应用于蛋白质几何生成存在两个鸿沟:
分层 LoRA 微调策略
为弥合上述鸿沟,TDFold 对 SD 模型的两个关键组件分别引入 LoRA 分支:
Text LoRA(文本编码器适配)
原始 SD 的文本编码器(CLIP 编码器)支持最多 77 个 token,远不够描述典型蛋白质序列(可达数百至数千个残基)。TDFold 引入**位置插值(Position Interpolation)**扩展上下文窗口至 385 token:
对于更长的序列,采用非重叠分段策略逐段生成嵌入后聚合。
Text LoRA 的对齐损失函数为:
其目标是将蛋白质序列特征与几何图像特征映射到共享潜空间中。
UNet LoRA(去噪网络适配)
UNet LoRA 学习残基间几何数据的分布,并在蛋白质序列条件的引导下进行去噪生成:
UNet LoRA 的训练目标为:
冻结策略的重要性
SD 模型的原始参数完全冻结,仅训练 LoRA 参数。通过充分利用 SD 模型从 20 亿图像-文本对中习得的强大先验知识,LoRA 微调的泛化效果显著优于从头训练(消融实验中,LoRA 微调版在 CASP15 上 TM-score 提升 0.33,在 Orphan 上提升 0.21)。
推理加速:利用 DPMsolver、UniPC、DDIM 等高效采样器,去噪步数可从 1,000 步压缩至 25–50 步,大幅加速推理。
SCL 模块是一个轻量级图神经网络,包含四个核心组件。
该分支学习序列与几何的交互表示,包含三个子网络:
① 协同学习网络
对蛋白质序列(tokenize 后嵌入为特征向量)和残基间几何对(从生成的几何矩阵中提取距离和相对方向)进行双向迭代更新:
物理对称性保证:对 (Cβ–Cβ 距离)和 二面角矩阵执行对称化操作 ,显式保证其物理对称性。
② 混合卷积神经网络(Hybrid CNN)
采用非对称与对称两类卷积核学习残基间几何特征:
输出残基级关联矩阵 ,作为图网络的边特征。
③ 残基级图神经网络
构建残基图(残基为节点,边编码 CNN 精化后的几何关系),采用图 Transformer 架构进行表示学习:
为显式建模侧链对骨架构象的影响,引入原子级图分支:
设计了一套双层次交互学习的变分融合框架:
最终的三维结构预测分两个阶段:
骨架预测:
全原子精化:
SCL 模块的训练损失为多任务联合目标:
其中 包含键长、键角和二面角的 RMSE 约束。
全原子训练阶段在骨架损失基础上加入侧链约束:
训练集:来自 PDB 的 2020 年 5 月 1 日前发布的 352,409 个非冗余蛋白质结构域。
测试集(五个基准):
数据集 | 蛋白质数量 | 特点 |
|---|---|---|
Orphan | 77 | 在 UniRef30、PDB70、MGnify 中均无同源序列 |
Orphan25 | 25 | 搜索 UniRef50_2018_03 数据库返回零同源序列,PDB 2020年5月后发布 |
CASP14 | 32 | 标准竞赛基准 |
CASP15 | 45 | 标准竞赛基准 |
CASP16 | 15 | 最新竞赛基准 |
数据无泄露保证:训练集与所有测试集之间的结构相似性(TM-score)均低于 0.3,序列一致性(BLAST)均低于 30%。
在最具挑战性的孤儿蛋白数据集上,TDFold 全面超越所有对比方法:
方法 | TM-score ↑ | GDT_TS ↑ | pLDDT ↑ | 输入模式 |
|---|---|---|---|---|
TDFold | 0.46 | 77.50 | 71.85 | 单序列 |
ESMFold | 0.42 | 72.08 | 69.52 | 单序列 |
OmegaFold | 0.39* | 74.44 | 68.75 | 单序列 |
RGN2 | — | — | — | 单序列 |
AlphaFold3 | 0.41 | 73.49 | 69.55 | 全同源 |
AlphaFold2 | 0.37 | 68.91 | 67.23 | 全同源 |
RoseTTAFold | 0.35 | 67.61 | 65.96 | 全同源 |
*OmegaFold 与 TDFold 对比 p=0.0227
方法 | TM-score ↑ | GDT_TS ↑ | pLDDT ↑ | 输入模式 |
|---|---|---|---|---|
TDFold | 0.61 | 68.37 | 67.48 | 单序列 |
ESMFold | 0.54 | 64.93 | 64.65 | 单序列 |
OmegaFold | 0.52* | 63.65 | 54.25 | 单序列 |
AlphaFold3 | 0.57 | 65.46 | 65.57 | 全同源 |
AlphaFold2 | 0.44 | 61.70 | 64.87 | 全同源 |
RoseTTAFold | 0.40 | 58.25 | 63.25 | 全同源 |
*OmegaFold 与 TDFold 对比 p=0.0256

关键发现:TDFold 在单序列模式下的 TM-score(0.46/0.61),不仅远超其他单序列方法,甚至超过了使用完整 MSA 和三维结构模板的 AlphaFold2(0.37/0.44)和 AlphaFold3(0.41/0.57)。这验证了 2D 几何模板扩散路线在同源信息缺乏时的核心价值。
数据集 | TDFold | ESMFold | OmegaFold | AlphaFold2(全同源) | AlphaFold3(全同源) |
|---|---|---|---|---|---|
CASP14 TM | 0.73 | 0.71 | 0.76 | 0.80 | — |
CASP15 TM | 0.70 | 0.69 | 0.63* | 0.79 | — |
CASP16 TM | 0.77 | 0.75 | 0.69* | 0.78 | — |
*CASP15 OmegaFold p=0.0268;CASP16 OmegaFold p=0.0246

说明:TDFold 在单序列模式下持续超越 ESMFold,且在 CASP15 和 CASP16 上显著优于 OmegaFold。与使用全同源信息的 AlphaFold2/AlphaFold3 的差距也明显缩小。
OmegaFold 在 CASP14 上(0.76)略高于 TDFold(0.73)的合理解释:OmegaFold 的训练集包含 2021 年 4 月前的 UniRef50 序列和 PDB 结构,而 CASP14 目标蛋白于 2020 年 7 月起陆续释放至 PDB,存在一定数据泄露风险;TDFold 及其他方法的训练截止日期均为 2020 年 5 月,不存在此问题。
针对同源序列极少(< 20 条)的快速演化病毒蛋白:
目标蛋白 | 病毒类型 | 序列长度 | MSA 数量 | AlphaFold2 | AlphaFold3 | ESMFold | TDFold |
|---|---|---|---|---|---|---|---|
T1033-D1 | crAs 噬菌体 | 100 | 3 | 0.41 | 0.44 | 0.33 | 0.94 |
T1039-D1 | crAs 噬菌体 | 161 | 3 | 0.58 | 0.47 | 0.28 | 0.89 |
T1064-D1 | SARS-CoV-2 ORF8 | 75 | 14 | 0.41 | 0.71 | 0.44 | 0.73 |
T1082-D1 | T4 噬菌体 | 71 | 11 | 0.40 | 0.73 | 0.38 | 0.76 |
T1099-D1 | 肝炎病毒 | 178 | 10 | 0.80 | 0.85 | 0.47 | 0.87 |
T1123-D1 | 星状病毒 | 214 | 9 | 0.62 | 0.28 | 0.31 | 0.79 |

TDFold 在所有六个病毒蛋白靶点上均取得最高 TM-score,充分展示了其在同源信息极度稀缺情境下的强大泛化能力。
推理时间(以蛋白质序列长度为变量,N=194 个靶点):
序列长度范围 | TDFold | ESMFold | AlphaFold3 | AlphaFold2 / RoseTTAFold |
|---|---|---|---|---|
≤ 140 残基 | 略高于 ESMFold | 最快 | — | 最慢 |
140–500 残基 | 最快 | 约 100 s | 约 240 s | > 1000 s |
> 500 残基 | ~10 s(稳定) | 持续增加 | 持续增加 | 持续增加 |
关键特性:TDFold 的推理时间几乎不随序列长度增加,因为其主要由去噪步数决定,而非序列长度。这一特性使其在长序列蛋白的大规模预测任务中具有决定性优势。
GPU 显存占用(随序列长度增加的变化幅度):
方法 | 基础显存 | 最大显存(500残基) | 增幅 |
|---|---|---|---|
TDFold | ~5 GB | ~7 GB | +40% |
AlphaFold2 | ~4 GB | ~12 GB | +200% |
RoseTTAFold | ~5 GB | ~16 GB | +220% |
ESMFold | ~8 GB | ~20 GB | +150% |

论文采用 KL 散度(Kullback–Leibler divergence)定量评估生成几何模板与真实值之间的分布差异,并与 trRosetta 的几何预测结果对比。在 Orphan、Orphan25 以及所有 CASP 数据集上,TDFold 生成的几何模板的 KL 散度均低于 trRosetta,说明 TDFold 生成的几何模板质量更优。
可视化案例:在 2DCO_A(Orphan)和 6XN9_A(Orphan25)两个典型案例中:
逐步叠加各模块,在 CASP15(N=45)和 Orphan(N=77)数据集上评估各组件贡献:
模型配置 | CASP15 TM-score | Orphan TM-score |
|---|---|---|
原始 SD 模型(基线) | 0.21 | 0.22 |
+ UNet LoRA | 0.46 (+0.25) | 0.33 (+0.11) |
+ Text LoRA | 0.65 (+0.19) | 0.41 (+0.08) |
+ SCL 模块 | 0.70 (+0.05) | 0.46 (+0.05) |
SD(从头训练)+ SCL | 0.37 | 0.25 |
关键结论:
可视化佐证:仅使用原始 SD 模型时,以蛋白质序列为提示词生成的「图像」呈现为含有字符和人物的通用图像,说明模型完全无法理解蛋白质序列的语义;加入 UNet LoRA 后,生成图像开始出现对角线结构;同时加入 Text LoRA 后,才能生成与真实几何结构高度吻合的残基间距离图像。
TDFold 代表了蛋白质结构预测领域的一次方法论突破:通过将视觉扩散生成模型迁移应用于蛋白质几何特征生成,它在不依赖同源信息的前提下,实现了对 ESMFold 等主流 PLM 方法的全面超越,并在孤儿蛋白和病毒蛋白等高难度任务上展现出尤为突出的优势。
更值得关注的是,TDFold 将高质量蛋白质结构预测从大型计算集群「带回」到了普通科研工作站,这对推动全球资源受限机构的蛋白质科学研究具有深远意义。随着扩散模型技术的持续发展,这一技术路线有望在蛋白质功能预测、药物靶点识别、蛋白质设计等下游任务中得到更广泛的应用。