首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >JCIM | 小环肽的三维结构,能不能从一张化学图里长出来?

JCIM | 小环肽的三维结构,能不能从一张化学图里长出来?

作者头像
MindDance
发布2026-05-29 13:13:58
发布2026-05-29 13:13:58
210
举报

一篇关于全原子扩散模型 AGDIFF、非天然氨基酸环肽与药物设计瓶颈的解读

想象一个药物分子像一枚很小的手环,几个氨基酸首尾相连,围成一个受限的环。它比普通线性肽更稳定,也更容易在复杂生物环境里保持形状;如果再换上一些非天然氨基酸,它还可能拥有更好的亲和力、代谢稳定性和跨膜能力。问题是,这类分子越像药,结构就越不像教科书里的标准蛋白。它们小、硬、改造多,常常带着 D-氨基酸、N-甲基化残基、内酯键、β-氨基酸和各种不标准侧链。传统蛋白结构预测模型在这里会遇到一个很现实的尴尬:序列语言不够用了。

4 月,上海交通大学药学院、张江高等研究院团队在 Journal of Chemical Information and Modeling 发表论文。论文题目是 Accurate 3D Structure Prediction of Small Cyclic Peptides Containing Non-Canonical Amino Acid Residues Using an All-Atom Diffusion Model with Stereogenic Implementation。这项工作把原本用于小分子构象生成的全原子扩散模型 AGDIFF 重新训练到大环肽构象数据集 CREMP 上,让模型从二维分子图直接生成含非天然氨基酸小环肽的三维构象集合,并通过立体化学校正解决生成模型常见的手性错误。

论文给出的核心结果很直接:在 CREMP 内部测试集上,AGDIFF 的平均最小 RMSD 达到 0.79 Å,环扭转指纹偏差 rTFD 为 6.55°;在更具挑战的外部非天然氨基酸泛化测试集中,RMSD 为 1.04 Å,rTFD 升至 15.27°。这个结果说明,模型已经能较好恢复小环肽的整体三维拓扑;同时也提醒我们,训练集中没有覆盖的内酯键、β-氨基酸等化学模式,仍然会显著拉高局部扭转角误差。

AGDIFF 从二维分子图出发,通过扩散去噪生成含非天然氨基酸小环肽的三维构象,并结合立体化学校正提高生成结构的手性一致性。
AGDIFF 从二维分子图出发,通过扩散去噪生成含非天然氨基酸小环肽的三维构象,并结合立体化学校正提高生成结构的手性一致性。

AGDIFF 从二维分子图出发,通过扩散去噪生成含非天然氨基酸小环肽的三维构象,并结合立体化学校正提高生成结构的手性一致性。


为什么小环肽正在变得重要?

环肽是肽类药物里一个很特殊的分支。线性肽像一段柔软的链条,容易被蛋白酶切割,也可能在水溶液里到处摆动;环肽则把链条首尾扣上,形成一个受限的环状骨架。这个环化拓扑会压低构象自由度,让分子更容易维持稳定三维形状。对药物发现来说,这一点很关键:药物并不是凭序列去结合靶点,而是凭空间中的氢键供体、氢键受体、疏水斑块、电荷分布和形状互补去接触靶点。

环肽的另一个吸引力,是它位于传统小分子和抗体之间的中间地带。小分子通常擅长钻进深口袋,但面对蛋白-蛋白相互作用这类大而平的界面,经常缺少足够的接触面积。抗体结合面积大,却很难进入细胞。环肽的体量和形状给了它一种折中可能:它可以展开一片较大的结合表面,又有机会通过结构预组织、N-甲基化、D-氨基酸替换、侧链改造等方式提高稳定性和跨膜潜力。

按照文章的说法,截至 2024 年,已有 42 个环肽药物获得 FDA 批准,约占已上市肽类药物的近一半;其中 33 个含有非天然氨基酸。作者举到的例子包括用于 T 细胞淋巴瘤治疗的 Romidepsin、抗菌药 Vancomycin、免疫抑制剂 Cyclosporine A,以及用于斑块状银屑病相关适应症的 Icotrokinra。临床管线里,Enlicitide 和 Paluratide 也被作为小环肽候选物提及。

代表性含非天然氨基酸的大环肽药物及临床候选分子,包括 Cyclosporine A、Paluratide、Enlicitide 与 Rezafungin。
代表性含非天然氨基酸的大环肽药物及临床候选分子,包括 Cyclosporine A、Paluratide、Enlicitide 与 Rezafungin。

代表性含非天然氨基酸的大环肽药物及临床候选分子,包括 Cyclosporine A、Paluratide、Enlicitide 与 Rezafungin。

药物化学家真正关心的环肽,往往不是标准氨基酸排成的漂亮小圆圈。为了让分子更像药,研究人员会不断改造它:引入 D-氨基酸来抵抗酶解,用 N-甲基化减少氢键暴露,换上疏水侧链增强膜相容性,甚至用非肽键连接方式改变环的力学性质。很多小环肽还具有所谓分子变色龙行为:在水相中暴露极性基团以保持溶解性,在脂质环境中又通过构象切换把极性主链埋起来,从而提高被动跨膜渗透的机会。论文特别提到,常被讨论的被动跨膜环肽代表 Cyclosporine A 由 11 个残基组成,这也提示小尺寸和构象集合对口服或细胞内递送有多重要。

计算问题就卡在这里。对大蛋白来说,AlphaFold 系列、RFdiffusion、ProteinMPNN 等模型已经改变了结构预测和设计方式;在环肽方向,Baker 等团队也通过循环偏移等策略推动了深度学习设计。但这些模型的基础知识大量来自蛋白质结构数据库。它们更熟悉大一些、二级结构更清晰、较为蛋白样的环肽结合物。到了小环肽,尤其是小于 10 个残基、又大量包含非天然骨架和侧链的分子,序列模型会碰到两层困难:一是数据稀缺,二是化学表达不够细。

论文中作者系统挖掘 PDB 后发现,具有实验结构的小环肽唯一序列只有 344 条。对于一个需要学习立体化学、环张力、顺反肽键、非天然残基和多构象平衡的模型来说,这样的数据量远远不够。于是,一个更自然的思路出现了:既然药物化学家手里首先有的是二维结构式,那就从化学图开始,而不是把小环肽硬塞进线性氨基酸序列。


从序列折叠转向化学图生成

AGDIFF 的基本思想可以讲得很直观:先把一个真实三维结构逐步加噪,变成乱糟糟的坐标;模型学习反向过程,从噪声中一步步恢复出合理的三维构象。和图像扩散模型从噪声生成图片类似,这里生成的是原子坐标。

这篇论文保留了 AGDIFF 原有的主体架构,并把它重新训练到环肽任务上。模型输入不是氨基酸序列,而是二维分子图:节点是原子,边是化学键,图中天然包含原子类型、连接关系、局部化学环境。这样做有一个很实用的好处:环肽的序列表示有循环排列歧义,同一个环从不同残基开始读,会得到不同线性序列;二维分子图没有这个问题。更重要的是,图表示天然能容纳非天然氨基酸、侧链环化、骨架异构、杂原子连接等复杂化学情况。

模型由两个主要部分组成。一个是分子特征提取模块,用图神经网络读取原子连接和局部化学环境;另一个是扩散生成模块,负责从噪声坐标中恢复几何结构。论文图示中,局部的 GIN 编码器用于捕捉键级相互作用,注意力增强的 SchNet 编码器用于捕捉长程几何信息,两者共同给出构象梯度,指导反向扩散过程。

AGDIFF 使用局部图同构网络和全局注意力增强 SchNet 同时编码键级相互作用与长程几何信息,并通过扩散去噪生成小环肽三维构象。
AGDIFF 使用局部图同构网络和全局注意力增强 SchNet 同时编码键级相互作用与长程几何信息,并通过扩散去噪生成小环肽三维构象。

AGDIFF 使用局部图同构网络和全局注意力增强 SchNet 同时编码键级相互作用与长程几何信息,并通过扩散去噪生成小环肽三维构象。

数据层面,作者使用的是 CREMP 数据集,全称为 Conformer-Rotamer Ensembles of Macrocyclic Peptides。这个数据集包含 36,198 个唯一大环肽,覆盖天然氨基酸、D-氨基酸和 N-甲基化氨基酸。数据生成流程结合了 RDKit 构象采样、GFN2-xTB 半经验优化和 CREST 构象集合精修,并曾通过与 NMR 衍生结构的 Ramachandran 分布比较验证合理性。

训练和评估拆分也比较清楚:28,800 个分子用于训练,3,600 个用于验证,200 个用于内部测试。此外,作者从 CREMP-CycPeptMPDB 中挑选了 40 个更具非天然氨基酸挑战性的环肽作为外部泛化测试集。这 40 个分子被特意选为可旋转键较少的分子,用来减少过度柔性带来的干扰,把问题更集中地落在新化学模式的空间泛化上。


小环肽首先是化学对象,其次才是序列对象

这项工作的第一个关键转向,是把小环肽放回全原子化学图里。对于标准蛋白,序列是非常高效的表达;对于含非天然氨基酸的小环肽,序列很快变得笨拙。一个 D-氨基酸、一个 N-甲基化残基、一个侧链到主链的连接、一个内酯键,都需要额外字典或特殊标记。化学图则直接表达原子和键,模型看到的是分子本身。

第二个转向,是强调构象集合。小环肽不像刚性小分子,也不像大蛋白那样通常追求一个主导折叠态。很多环肽的药效、渗透性和选择性,来自一组可互相转换的低能构象。论文评估时没有简单地比较单个预测结构,而是对参考集合中的每个构象,在生成集合中寻找最接近的构象,再计算平均最小 RMSD 和 rTFD。这种评价方式更贴近环肽的真实物理图景。

第三个转向,是把立体化学当成硬问题处理。很多全原子生成模型在三维坐标生成时会出现手性中心翻转,尤其在没有显式立体约束时,模型可能生成镜像构象。对药物分子来说,这不是小误差。一个手性中心反了,可能意味着另一个分子,药效、毒性和代谢都会变。论文采用一个轻量级后处理校正:利用 RDKit 给出的立体化学标签作为参考,计算手性中心邻近原子的有向体积符号;如果符号不匹配,就通过几何反射修正构型。结构中出现超过一个手性不匹配的构象会被排除,以保证集合可靠性。

第四个转向,是使用环肽专门数据,而不是泛化小分子数据硬训。论文后面的消融结果很有说明力:用 GEOM-Drugs 训练的 AGDIFF 还能大致抓住整体拓扑,却无法稳定保持肽键 ω 角的顺式或反式平面几何;用 QM9 训练时,模型会把大环肽压成不合理的球状结构。小分子数据集虽然很大,但它没有足够的大环肽几何先验。这里的经验很清楚:数据分布决定模型懂不懂某类化学语言。


实验结果:0.79 Å 的精度背后,真正要看三件事

论文使用两个指标评价结构质量。RMSD衡量整体原子坐标偏差,反映全局结构是否对齐;rTFD衡量环骨架扭转角偏差,更关注环本身的构象是否正确。对小环肽来说,两者都重要:RMSD 好看但扭转角错了,可能意味着主链姿态不对;rTFD 合理但侧链乱摆,也会影响结合特征呈现。

在 CREMP 内部测试集上,AGDIFF 达到 0.79 Å 的平均最小 RMSD 和 6.55° 的平均最小 rTFD。这个量级对于环肽构象集合生成来说相当可观。进一步按顺式肽键数量分组后,模型在 0 到 4 个顺式肽键的分子上表现都比较稳定:无顺式肽键时 RMSD 为 0.77 Å、rTFD 为 6.34°;含 1 个顺式肽键时 RMSD 仍为 0.77 Å、rTFD 为 8.42°;即使样本数很少的 3 个或 4 个顺式肽键组,RMSD 也没有明显失控。

AGDIFF 在内部 CREMP 测试集和外部非天然氨基酸泛化测试集上的结构预测精度,以及不同顺式肽键数量下的性能表现。
AGDIFF 在内部 CREMP 测试集和外部非天然氨基酸泛化测试集上的结构预测精度,以及不同顺式肽键数量下的性能表现。

AGDIFF 在内部 CREMP 测试集和外部非天然氨基酸泛化测试集上的结构预测精度,以及不同顺式肽键数量下的性能表现。

外部泛化测试更能看出模型边界。CREMP-CycPeptMPDB 的 40 个环肽包含更复杂的非天然氨基酸和环化化学。AGDIFF 在这里的平均最小 RMSD 升至 1.04 Å,整体拓扑仍然较好;但 rTFD 升至 15.27°。作者分析认为,主要原因是外部测试集中出现了训练数据没有覆盖的内酯键β-氨基酸。这说明模型对新化学空间已有一定外推能力,但对未见过的连接方式,环扭转角仍会付出代价。

外部非天然氨基酸泛化测试集中,AGDIFF 的 RMSD 保持在约 1 Å 水平,但 rTFD 对训练集中缺失的内酯键和 β-氨基酸更敏感
外部非天然氨基酸泛化测试集中,AGDIFF 的 RMSD 保持在约 1 Å 水平,但 rTFD 对训练集中缺失的内酯键和 β-氨基酸更敏感

外部非天然氨基酸泛化测试集中,AGDIFF 的 RMSD 保持在约 1 Å 水平,但 rTFD 对训练集中缺失的内酯键和 β-氨基酸更敏感

论文还展示了 4 个外部测试分子的可视化叠合。即使 rTFD 在复杂分子上升高,生成结构和参考低能构象仍能对齐出相似的整体环形拓扑。作者举到的例子包括含噻唑啉环的分子、含 β-氨基酸并通过内酯键连接到氯取代非天然氨基酸的分子、主链里有 3 个内酯连接的分子,以及同时包含苯甘氨酸和 γ-吡咯烷基谷氨酸片段的分子。这个图给人的直观信息是:模型没有被复杂化学完全打乱,但局部扭转几何还需要更丰富的数据来校准。

外部测试集中 4 个代表性非天然氨基酸环肽的生成构象与参考低能构象叠合,显示 AGDIFF 能较好恢复整体分子拓扑。
外部测试集中 4 个代表性非天然氨基酸环肽的生成构象与参考低能构象叠合,显示 AGDIFF 能较好恢复整体分子拓扑。

外部测试集中 4 个代表性非天然氨基酸环肽的生成构象与参考低能构象叠合,显示 AGDIFF 能较好恢复整体分子拓扑。

Ramachandran 图则从另一个角度检查生成结构是否像真实肽骨架。校正后的模型生成构象大多落在合理的主链二面角区域,只有少量离群点。这里可以把 Ramachandran 图理解为一张主链运动地图:如果大量点落在不合物理直觉的区域,模型可能只是把原子摆到了相似位置,却没有学会肽骨架的构象语法。

手性校正的效果更加直接。论文显示,后处理立体化学校正把手性中心正确率从 50.2% 提高到 **100%**;同时,内部测试集的平均最小 RMSD 从 1.06 Å 降到 0.79 Å,rTFD 从 9.10° 降到 6.55°。这些数字说明,手性错误不是一个孤立标签问题,它会真实影响三维构象的整体对齐和主链扭转。

立体化学校正前后,模型生成构象的主链二面角分布与参考构象的相似性明显提高,说明手性校正有助于生成更合理的环肽构象集合。
立体化学校正前后,模型生成构象的主链二面角分布与参考构象的相似性明显提高,说明手性校正有助于生成更合理的环肽构象集合。

立体化学校正前后,模型生成构象的主链二面角分布与参考构象的相似性明显提高,说明手性校正有助于生成更合理的环肽构象集合。

论文还用一个实验结构 4B8Y 做了基准比较。这个分子被选中,是因为其中的非天然氨基酸能够被参与对比的主流模型残基字典支持。作者最初考虑了 AlphaFold3、Boltz-2、Chai-1 和 Protenix;实测中 Chai-1 缺少生成环肽的能力,Boltz-2 虽能处理输入,但生成的非天然氨基酸残基出现物理上不合理的随机原子摆放。最终可比的结果中,AGDIFF 对 4B8Y 的最小 RMSD 为 1.98 Å,rTFD 为 18.5°;ETKDG3 为 2.32 Å 和 23.4°;AlphaFold3 为 2.80 Å 和 43.2°;Protenix 为 2.95 Å 和 57.5°。

这个结果不宜被解读成 AGDIFF 全面超越所有蛋白结构模型。它更像一个清晰的局部信号:在小尺寸、含非天然氨基酸、需要全原子化学细节的环肽场景中,专门的化学图扩散模型可能比蛋白中心模型更合拍。尤其当输入分子已经被药物化学家画成二维结构时,从图到构象集合的路径非常自然。

在含非天然氨基酸环肽 4B8Y 上,AGDIFF 相比 ETKDG3、AlphaFold3 和 Protenix 更接近实验参考结构。
在含非天然氨基酸环肽 4B8Y 上,AGDIFF 相比 ETKDG3、AlphaFold3 和 Protenix 更接近实验参考结构。

在含非天然氨基酸环肽 4B8Y 上,AGDIFF 相比 ETKDG3、AlphaFold3 和 Protenix 更接近实验参考结构。


启发

对于环肽药物设计,一个可靠的三维构象集合可以成为很多下游任务的起点。药物化学家需要知道氢键供体和受体在哪里,疏水基团如何排布,主链有没有把极性原子暴露出来,某个侧链是否能伸到靶点口袋里。AGDIFF 的价值正在这里:它能较快地把二维分子图转成三维构象集合,为分子对接、三维药效团建模、构象筛选和先导优化提供结构基础。

对蛋白-蛋白相互作用靶点来说,这一点尤其重要。许多 PPI 靶点缺少深口袋,传统小分子很难获得足够接触面积;环肽可以用预组织好的环形骨架呈现一片更大的结合表面。若模型能在早期就给出可信构象,研究人员可以更快判断某个环肽骨架是否具备正确的空间排列,减少盲目合成和反复试错。

另一个潜在方向是跨膜性设计。很多小环肽的成药性不只取决于是否能结合靶点,还取决于能否进入细胞、是否能以合适构象穿过脂膜。AGDIFF 本身并不直接预测膜渗透率,但它生成的构象集合为识别分子变色龙行为提供了结构素材。一个分子在不同环境中是否能折叠起来遮蔽极性主链,是否能在水相和脂相之间切换姿态,最终仍需要结合物理模拟、实验测定和更专门的性质模型。

这也是论文未来展望中提到的方向:把 AGDIFF 与图生成模型结合,做端到端环肽设计;把立体化学约束直接写进训练目标,而不是只靠后处理;进一步从结构生成走向结构-功能预测,把构象灵活性、膜渗透性和靶点亲和力放到同一设计框架里。


END:小环肽建模正在回到化学本身

这篇论文的价值,不只在于把 RMSD 做到 0.79 Å。更深一层看,它把含非天然氨基酸的小环肽从蛋白序列框架里解放出来,转向了更贴合药物化学实际的二维分子图表示。对小环肽来说,原子、键、手性、环张力、顺反肽键和构象集合,往往比线性序列更接近问题本质。

AGDIFF 在 CREMP 上学到的大环肽几何先验,让它能从噪声中恢复小环肽的三维形状;立体化学校正让输出不再被镜像构型拖累;外部测试和 4B8Y 对比则说明,这条路线对复杂非天然氨基酸分子具有现实潜力。它还不能替代实验,也不能直接回答活性和渗透性,但它让药物设计流程中一个长期费时的环节开始变得可计算、可批量、可迭代。

当环肽药物继续向更小、更复杂、更像药的方向走,结构预测模型也必须从蛋白世界走向化学世界。AGDIFF 给出的答案是:先读懂这张分子图,再让三维结构慢慢长出来。


参考文献

Accurate 3D Structure Prediction of Small Cyclic Peptides Containing Non-Canonical Amino Acid Residues Using an All-Atom Diffusion Model with Stereogenic Implementation

Dizhou Wu and Yike Zou

Journal of Chemical Information and Modeling 2026 66 (8), 4398-4408 DOI: https://doi.org/10.1021/acs.jcim.5c03236

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 为什么小环肽正在变得重要?
  • 从序列折叠转向化学图生成
  • 小环肽首先是化学对象,其次才是序列对象
  • 实验结果:0.79 Å 的精度背后,真正要看三件事
  • 启发
  • END:小环肽建模正在回到化学本身
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档