
DRUGONE
代谢物水平的改变与多种疾病的发生发展密切相关,但通过传统生物实验系统性识别代谢物–疾病关联往往成本高、周期长。为此,研究人员提出了一种深度学习框架 ZNGEA,通过整合零膨胀负二项分布(ZINB)、非负矩阵分解(NMF)与图嵌入自编码器,在复杂、稀疏且噪声较高的生物关联数据中高效挖掘潜在的代谢物–疾病关系。该方法在多个评测指标上显著优于现有主流模型,并在阿尔茨海默病和结直肠癌等案例分析中展现出较强的生物学合理性和新关联发现能力。

代谢组学是系统生物学的重要组成部分,能够直接反映机体的生理与病理状态。大量研究表明,疾病的发生往往伴随着特定代谢物种类或丰度的异常变化。然而,实验手段在覆盖范围、成本和效率方面存在明显限制,使得计算方法在代谢物–疾病关联挖掘中变得尤为重要。
近年来,基于随机游走、矩阵分解、图神经网络和深度学习的方法不断涌现,但多数模型未能充分考虑代谢物与疾病数据本身的稀疏性、零膨胀特征以及概率结构,预测性能仍有提升空间。
方法概述
ZNGEA 的核心思想是:通过多视角相似性融合 + 互补特征提取模块,全面刻画代谢物–疾病关联结构。整体流程包括四个关键步骤:
分别从结构、语义、交互模式和信息熵等角度,为代谢物和疾病构建多种相似性网络。
采用非线性方法整合多种相似性网络,在降低噪声影响的同时保留互补信息,构建更稳健的综合相似性图。
将两类特征融合后输入双线性解码器,用于代谢物–疾病关联预测。

图1|ZNGEA 模型框架。
性能评估与模型对比
在 5 折交叉验证框架下,ZNGEA 在 AUC、AUPR、准确率和 F1 分数等多项指标上均取得领先表现。与多种代表性方法相比,ZNGEA 在整体预测性能和稳定性方面均表现出明显优势。

图 2|不同模型的性能评估结果。
消融实验进一步表明:
这些结果表明,ZNGEA 中的各个模块在功能上具有明显互补性。

图 3|基于不同相似性信息的消融实验结果。
生物学案例分析
为验证模型的实际应用价值,研究人员以 阿尔茨海默病 和 结直肠癌 为例进行了案例分析。ZNGEA 成功识别出多种已被报道的关键代谢物,同时还预测出若干尚未被系统收录、但在文献中具有独立证据支持的潜在关联。
进一步将代谢物与其相关基因进行整合分析后发现,不同疾病可能通过共享的代谢–基因通路产生关联,这为发现跨疾病的潜在治疗靶点提供了新线索。

图 4|阿尔茨海默病与结直肠癌相关的代谢物–基因关联网络图。
总结与展望
ZNGEA 提供了一种面向代谢物–疾病关联识别的系统性计算框架,其主要优势体现在:
研究人员指出,该方法目前仍主要聚焦于代谢物–疾病的二元关联,未来可进一步引入基因、RNA 等多类生物实体,并通过高阶图结构或超图模型捕捉更复杂的调控关系。同时,结合生物实验与生存分析,有望进一步验证预测结果的临床与生物学意义。
整理 | DrugOne团队
参考资料
Ning, Qiao, Yanpeng Liu, Shaohang Qiao, Hui Li, Qian Ma, and Shikai Guo. "ZNGEA: ZINB-NMF Integrated Graph Embedding Autoencoder for Metabolite-Disease Association Identification." Analytical Chemistry (2025).
内容为【DrugOne】公众号原创|转载请注明来源