Chem. Sci. | 基于视觉Transformer的多模态核磁共振谱图端到端分子结构解析

DrugAI

发布于 2026-06-08 14:13:46

140

核磁共振（NMR）谱学是解析分子结构最重要的实验技术之一，但复杂谱图的解读长期依赖经验丰富的专家，通过结合多种谱学特征和启发式规则逐步推断结构。尽管近年来深度学习推动了“谱图到结构”的自动预测发展，但多数方法仍依赖人工提取的峰表、耦合模式等文本化信息，从而丢失了原始谱图中的强度分布和细微特征，也难以自然扩展到二维NMR实验。

研究人员开发了NMRViT（NMR Vision Transformer）框架，直接以原始核磁谱图作为输入，同时处理一维¹H谱、一维¹³C谱以及二维HSQC谱图，实现从谱图到分子结构的端到端预测。模型基于大规模模拟数据训练，并在单模态和多模态输入场景下均取得优异性能。此外，研究人员系统评估了模型从模拟谱图向真实实验谱图迁移时面临的领域差距问题，并提出结合少量实验数据微调以及化学位移重排序策略的方法，显著提升真实场景中的结构解析能力。研究结果表明，视觉Transformer能够直接从原始NMR图像中学习结构信息，并为自动化分子结构解析提供了一种具有实际应用价值的新范式。

核磁共振谱学广泛应用于天然产物鉴定、药物研发、有机合成以及代谢组学研究。理论上，完整的NMR谱图包含了丰富的结构信息，包括官能团组成、原子连接关系以及局部化学环境。然而，在实际工作中，从谱图推断完整结构往往需要经验丰富的研究人员综合分析多个谱学实验结果。

传统计算方法主要采用“结构候选库匹配”策略，即首先生成候选分子，再利用量子化学计算或机器学习模型预测其谱图，与实验结果进行比较，从而筛选最可能的结构。这类方法虽然有效，但本质上受限于候选库范围，无法直接发现未知结构。

近年来，Transformer和大语言模型的发展推动了端到端谱图解析技术的出现。研究人员开始尝试利用神经网络直接将NMR谱图转换为SMILES结构表达式。然而，大部分现有方法首先将谱图转换为峰列表、峰型符号等文本信息，再交由Transformer处理。这种方式虽然降低了计算复杂度，却不可避免地丢失了大量原始谱图中的强度分布特征和噪声模式。

与此同时，二维HSQC谱能够提供氢原子与直接相连碳原子之间的关联信息，对于解决结构歧义具有重要作用。然而，如何将二维谱图与一维谱图统一纳入同一个深度学习框架仍是一个尚未解决的重要问题。此外，基于模拟谱图训练的模型往往难以直接应用于真实实验数据，模拟与实验之间的领域差距成为限制实际应用的关键瓶颈。

基于这些挑战，研究人员提出了NMRViT框架，希望通过视觉Transformer直接学习原始谱图特征，实现真正意义上的多模态端到端分子结构解析。

方法

NMRViT将分子结构解析视为一个序列生成任务。模型首先接收原始的一维¹H谱、一维¹³C谱以及二维HSQC谱图，并将谱图划分为多个局部图像块（Patch）。这些图像块经过嵌入后输入Vision Transformer编码器，通过自注意力机制学习不同化学位移区域之间的长程关联。随后，自回归Transformer解码器根据编码后的谱图特征逐步生成SMILES结构序列。

为了进一步提高结构预测准确率，研究人员将分子式作为额外提示信息输入解码器，使模型在生成过程中受到元素组成约束。此外，模型引入Patch Dropout策略，通过随机丢弃部分谱图片区块增强模型鲁棒性。对于多模态输入，不同谱图首先分别编码，再在统一特征空间中融合，从而实现¹H、¹³C和HSQC信息的协同利用。在预测完成后，模型还结合外部化学位移预测网络，对生成的多个候选结构进行重排序，以获得最终预测结果。

图1: 模拟数据集与实验数据集分子规模分布统计。

图2: NMRViT总体框架。

结果

在大规模模拟数据集上实现高精度结构解析

研究人员首先在包含约79万个有机分子的模拟多模态谱学数据库上评估模型性能。结果显示，NMRViT在各种谱图输入模式下均达到或超过已有最先进方法。

仅利用¹H谱时，模型的Top-1结构预测准确率达到71.39%，明显优于此前基于峰列表编码的方法。研究人员认为，这主要归功于模型直接利用了原始谱图中的强度分布信息，而这些细节在峰提取过程中通常会被丢弃。

对于二维HSQC谱，模型取得67.97%的Top-1准确率。这是目前少数系统评估二维NMR谱图直接结构解析能力的研究之一，证明Vision Transformer能够有效学习二维谱图中的结构关联信息。

当同时整合¹H、¹³C和HSQC三种谱图时，模型性能进一步提升，Top-1准确率达到79.12%，Top-10准确率超过91%。结果表明，多模态融合能够充分利用不同谱学实验提供的互补信息。

分子式提示和Patch Dropout显著增强模型性能

为了分析模型关键组成部分的贡献，研究人员进行了系统消融实验。

结果发现，当移除分子式提示后，各种谱图输入条件下的预测准确率均明显下降。分子式能够为结构生成过程提供全局组成约束，帮助模型缩小搜索空间，避免生成元素组成错误的候选结构。

与此同时，关闭Patch Dropout后模型性能同样下降。由于NMR谱图天然具有高度稀疏特征，大部分区域没有有效信号。Patch Dropout迫使模型关注不同区域的信息组合，从而提高对弱峰和缺失峰的鲁棒性。

实验表明，两种机制共同构成了NMRViT性能提升的重要来源。

图3： Patch Dropout与分子式提示的消融实验结果。

模拟谱图与真实实验谱图之间存在明显领域差距

研究人员随后将模型直接迁移至真实实验NMR数据集进行测试，而不进行任何额外训练。

结果显示，模型在实验数据上的性能明显低于模拟数据。例如，仅使用¹H谱时，Top-1准确率由模拟测试集上的71.39%下降至19.91%。即使是训练集中已经出现过的分子，只要谱图来自真实实验，预测准确率仍然显著下降。

进一步分析表明，造成性能下降的主要原因并非分子结构复杂度差异，而是模拟谱图与实验谱图之间存在明显的信号分布差异，包括基线漂移、噪声模式以及仪器条件差异等因素。

这一结果揭示了当前谱图生成模型面临的核心挑战，即如何跨越模拟数据与真实实验之间的领域鸿沟。

少量实验样本微调即可显著恢复预测能力

为了缓解领域差距问题，研究人员利用约100个实验样本对模型进行微调。

结果显示，所有谱图模式均获得显著性能提升。其中，联合使用¹H和¹³C谱时，Top-1准确率提升至66.15%，接近模拟数据上的性能水平。

值得注意的是，仅需极少量实验样本即可获得如此明显的性能恢复，说明NMRViT在大规模模拟数据上学到的结构知识具有较强迁移能力，而实验微调主要帮助模型适应真实仪器产生的谱图特征。

这一发现对于未来构建自动化NMR解析系统具有重要意义，因为实验标注数据通常十分有限。

图4：零样本迁移与实验微调性能比较。

化学位移重排序进一步提高候选结构筛选能力

研究人员提出了一种基于化学位移预测的重排序策略，对Transformer生成的候选结构进行再次筛选。

实验结果显示，在零样本迁移场景下，重排序能够持续提高Top-1和Top-5准确率。对于仅使用¹³C谱的情况，加入重排序后的结果甚至超过了未重排序的微调模型。

案例分析表明，初始预测往往只在官能团位置或芳环取代方式等局部细节上出现错误，而重排序能够利用化学位移信息识别这些差异，从而将正确结构提升到更靠前的位置。

即使无法完全恢复正确结构，重排序后的候选结构通常也更接近真实分子骨架，提高了结果的化学合理性和可解释性。

图5: 化学位移重排序前后结构预测结果比较。

二维HSQC谱图实现复杂代谢物结构预测

研究人员进一步利用HMDB-HSQC实验数据集验证模型对二维谱图的处理能力。

在零样本条件下，模型在重叠分子上的Top-1准确率达到32.0%，虽然明显低于模拟数据上的67.97%，但已经展现出较好的迁移能力。经过少量实验数据微调后，未见过分子的Top-1准确率从16.7%提升至45.8%。

研究人员展示的预测案例涵盖了芳香体系、长链脂肪结构以及复杂多环骨架等多种类型，证明NMRViT不仅适用于简单有机分子，也能够处理结构更复杂的代谢物。

研究人员认为，该框架未来有望进一步扩展至COSY、HMBC等更多二维NMR实验，实现真正意义上的多维谱图统一解析。

图6: HMDB-HSQC数据集上的结构预测结果与典型案例。

讨论

研究人员提出了NMRViT这一基于Vision Transformer的端到端分子结构解析框架，实现了从原始NMR谱图直接到分子结构的自动预测。与传统依赖峰提取和符号编码的方法不同，NMRViT直接利用完整谱图中的强度分布信息，从而充分保留了谱学信号中的细粒度特征。

研究结果表明，多模态谱图融合能够显著提高结构解析能力，而二维HSQC谱图则为解决结构歧义提供了重要补充信息。与此同时，研究人员发现模拟谱图与实验谱图之间仍然存在明显领域差距，但通过少量实验数据微调和化学位移重排序，能够有效弥补这一问题。

研究人员认为，未来的发展方向包括提高模型对真实谱图噪声和仪器差异的鲁棒性，构建更大规模的实验谱图库，以及扩展到COSY、HMBC等二维谱学实验。随着自动化实验平台和人工智能实验室的发展，NMRViT有望成为闭环机器人化学平台中的核心分析模块，实现从合成、表征到结构解析的全自动化流程。

整理 | DrugOne团队

参考资料

Han, C.; Pan, X.; Zhang, Y. End-to-end molecular structure elucidation from multimodal NMR spectra images using vision transformers. Chem. Sci. 2026. https://doi.org/10.1039/d6sc02352e