
分子结构解析是化学研究中最基础也最具挑战性的任务之一。传统结构解析通常需要研究人员综合核磁共振(NMR)、红外光谱(IR)、质谱(MS)等多种实验数据,并结合丰富经验进行推理。然而,不同谱学技术仅能提供分子结构的局部信息,因此结构解析往往存在多个可能解。此外,现有计算方法通常局限于单一谱学模态,依赖复杂的人工预处理流程,缺乏可靠的不确定性评估,也难以适应新的化学空间。
研究人员开发了SECS(Structure Elucidation from Chemical Spectra)框架,将对比学习与进化算法相结合,实现从原始多模态谱图直接推断分子结构。该系统通过学习NMR、IR和MS谱图与分子结构之间共享的潜在表示空间,实现跨模态检索;随后利用遗传算法不断优化候选结构,最终输出带有可信度评分和数据库上下文信息的候选结构列表。
在多项挑战性结构解析任务中,SECS不仅显著优于现有自动解谱方法,还在与资深化学家的直接对比测试中达到了相当水平。此外,系统能够识别文献中的错误结构归属,并能够通过更新数据库快速适应新的化学领域,而无需重新训练模型。研究表明,对比学习与进化搜索的协同结合为自动化结构解析提供了新的解决方案。

分子和材料通常通过光谱学和质谱学实验进行表征。由于每种实验技术仅能反映分子结构的一部分信息,因此研究人员通常需要综合多个实验结果才能获得完整结构。例如,红外光谱可以揭示官能团信息,而核磁共振实验则能够提供原子连接关系和局部化学环境信息。
长期以来,结构解析依赖人工分析谱图,通过查阅数据库、归纳经验规律以及逻辑推理逐步构建结构模型。虽然量子化学模拟和机器学习预测谱图的方法已经取得重要进展,但这些方法主要解决“结构到谱图”的正向问题,难以直接完成“谱图到结构”的逆向推断。
近年来,数据库检索和深度学习方法开始应用于自动结构解析。然而,数据库检索只能识别已经存在于数据库中的化合物;端到端深度学习模型虽然能够直接预测结构,但往往仅利用单一谱学数据,难以充分模拟化学家综合多种实验信息进行推理的过程。与此同时,大多数计算机辅助结构解析系统仍依赖峰提取等繁琐预处理步骤,难以满足自动化实验室的发展需求。
研究人员认为,一个理想的自动结构解析平台应当具备五项关键能力:能够直接处理原始实验数据、支持多种谱学技术联合分析、能够适应新的化学空间、具备良好的可扩展性,并为用户提供可信度评估和参考背景信息。SECS正是在这一背景下提出的。
方法
SECS采用“检索—优化(Retrieve then Refine)”的整体策略。首先,研究人员利用对比学习训练多个编码器,使不同谱学数据与对应分子结构在统一潜在空间中对齐。模型分别编码¹H NMR、¹³C NMR、HSQC、IR等谱图以及SMILES结构表达式,并通过对比学习使同一分子的不同表征在潜在空间中彼此接近。
在实际应用中,系统首先根据输入谱图从大型分子数据库中检索与实验谱图最相似的候选结构集合。随后,将这些候选分子作为初始种群输入图遗传算法GraphGA。遗传算法通过不断修改原子、键以及子结构,生成新的分子候选,并利用多模态谱图与结构表示之间的相似度作为适应度函数进行优化。最终,系统输出按照匹配程度排序的结构候选列表,其中既包括数据库已有分子,也包括遗传算法生成的新结构,从而兼顾已知化合物识别和新结构发现能力。

图1: SECS整体框架。
结果
多模态谱学联合分析显著提升结构检索能力
研究人员首先评估了跨模态检索模块的性能。他们利用1000个具有¹H NMR、¹³C NMR、HSQC和IR谱图的专利分子作为测试集,分析不同谱学组合对检索准确率的影响。
结果显示,单独使用一种谱学技术时,正确结构的检索率约为89%。当同时使用两种谱学数据时,准确率提升至96.4%;使用三种谱学数据时达到98.1%;同时整合四种谱学信息后,准确率进一步提升至98.4%。
研究人员指出,不同谱学技术提供的信息具有明显互补性。许多结构问题在单一谱学条件下存在多解,而多模态融合能够逐步消除结构歧义,实现接近完全正确的检索效果。这一结果充分证明了模拟化学家多维度分析策略的重要价值。

图2: SECS工作流程概览:对比学习驱动的跨模态检索与进化优化结构解析。
SECS显著超越现有自动结构解析方法
尽管检索模块表现优异,但研究人员指出,真实化学研究往往关注数据库中不存在的新化合物。因此,他们进一步引入遗传算法实现结构生成与优化。
实验结果显示,SECS在结构解析任务中的Top-1准确率达到约82%,较此前基于峰列表输入的先进Transformer方法提高约22%。
研究人员发现,加入¹³C NMR后性能提升最为明显,而进一步加入HSQC和其他谱学技术虽然仍有增益,但提升幅度趋于平缓。这表明许多结构问题通过一维NMR已经能够解决,而更加复杂的结构歧义则需要二维谱图和其他谱学技术进一步消除。
此外,随着遗传算法运行次数增加,预测性能持续提升,显示出计算资源与结构搜索质量之间良好的正相关关系。

图3: 多种谱学技术组合下的结构检索与结构解析性能评估。
模型能够提供可靠的可信度评估
自动结构解析能否被实际采用,很大程度取决于系统是否能够告诉研究人员“预测有多可靠”。
研究人员分析了谱图与结构表示之间的相似度评分与实际预测准确率之间的关系。结果发现,两者呈现近似线性关系。
例如,当模型给出的归一化评分超过0.94时,对应结构预测正确的概率约为94%。这种良好的校准特性意味着模型输出的相似度分数可以直接作为可信度指标。
因此,在自动化实验室场景中,系统不仅能够给出预测结果,还能够自动评估预测是否可信,为后续实验决策提供依据。
成功发现文献中的错误结构归属
研究人员进一步测试了SECS在纠错任务中的能力。
他们选取了多个历史上曾发生结构误判、后来被重新修正的天然产物案例。对于这些案例,研究人员向SECS输入正确化合物对应的谱图信息,并让系统评估最初发表的错误结构。
结果显示,所有错误结构均获得较低匹配评分,表明系统能够识别潜在异常。更重要的是,在随后执行完整的检索与遗传算法优化流程后,SECS均成功恢复出了后续研究确认的正确结构,并获得明显更高的匹配分数。
这一结果表明,SECS不仅能够完成结构预测,还能够作为实验数据质量控制工具,用于发现数据库录入错误、实验记录错误以及文献中的错误结构归属。

图4: 利用SECS纠正文献中错误分子结构归属的典型案例。
实验谱图微调显著提升真实场景性能
研究人员进一步评估了SECS在真实实验数据上的表现。
在由34个实验分子组成的内部数据集上,直接使用模拟谱图训练的模型几乎无法正确解析实验谱图。研究人员认为,这是模拟数据与真实仪器数据之间存在明显领域差距所导致的。
随后,他们引入谱图增强策略,并利用约2370个实验分子进行微调训练。结果显示,Top-1准确率从最初接近0%提升至38.2%;经过实验数据微调后进一步提升至55.8%。
当同时引入实验¹H NMR和¹³C NMR数据时,Top-1准确率达到88.2%,Top-3准确率达到97.1%。
这些结果说明,少量真实实验数据即可显著提高模型在现实环境中的适用性。

图5: SECS在实验NMR数据上的结构解析性能表现。
达到资深化学家的结构解析水平
为了评估SECS的实际能力,研究人员开展了一项人与AI直接对抗实验。
他们随机选择20个具有挑战性的结构解析任务,并邀请6位具有不同背景的化学研究人员参与测试,其中包括拥有二十多年NMR经验的专家。
参与者需要根据¹H NMR谱图和分子式绘制未知化合物结构。所有参与者均可自由使用数据库和其他辅助工具。
结果显示,即使最优秀的专家也只能正确解决不到一半的问题,而完成全部任务平均需要13.2小时。
相比之下,SECS在相同任务上的整体表现与专家水平基本一致。在统计学意义上,系统与人类专家之间不存在显著差异,其综合表现位于所有参与者中的第64百分位。
研究人员认为,这是首次证明自动结构解析系统能够在复杂真实任务中达到专业化学家的平均水平。

图5: SECS在实验NMR数据上的结构解析性能表现。
讨论
研究人员提出了SECS这一融合对比学习和进化算法的自动结构解析框架,实现了从原始多模态谱图直接到分子结构的端到端推断。与传统方法相比,SECS无需峰提取等人工预处理步骤,能够灵活整合NMR、IR和MS等不同谱学技术的信息,并利用统一潜在空间实现跨模态检索和结构优化。
实验结果表明,多模态信息融合是解决结构歧义的关键因素,而对比学习构建的共享表示空间为不同谱学数据之间的协同分析提供了基础。进一步结合遗传算法后,系统不仅能够识别数据库中的已知化合物,还能够生成全新的候选结构,从而突破传统数据库检索方法的限制。
更重要的是,SECS提供了可信度评分和结构候选上下文信息,使研究人员能够理解和验证模型预测结果。同时,系统能够通过更新数据库适应新的化学空间,而无需重新训练模型,这对于企业内部数据库、电子实验记录本以及自动化实验平台具有重要意义。
研究人员指出,目前SECS尚未完全处理立体化学问题,也尚未扩展到复杂混合物体系。未来可通过引入NOESY等更多谱学技术以及混合物分解策略进一步提升性能。此外,该框架还有望扩展至蛋白质结构解析、材料结构鉴定以及自动化机器人实验室等更广泛的应用场景。
整理 | DrugOne团队
参考资料
Mirza, A., Patiny, L. & Jablonka, K.M. End-to-end multimodal structure elucidation from raw spectra combining contrastive learning and evolutionary algorithms. Nat Commun 17, 5013 (2026).
https://doi.org/10.1038/s41467-026-73846-y

内容为【DrugOne】公众号原创|转载请注明来源