首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Mach. Intell. | 条件Monge Gap驱动的可泛化单细胞扰动建模框架

Nat. Mach. Intell. | 条件Monge Gap驱动的可泛化单细胞扰动建模框架

作者头像
DrugAI
发布2026-06-05 20:31:42
发布2026-06-05 20:31:42
30
举报

DRUGONE

单细胞扰动预测旨在学习细胞在药物处理、基因编辑或其他外界干预后的状态变化规律,是精准医疗和药物发现的重要研究方向。然而,单细胞测序具有破坏性特点,同一个细胞无法同时获得干预前后状态,因此研究人员只能比较细胞群体分布而非逐细胞配对数据。这使得传统监督学习方法难以准确建模真实扰动效应。此外,绝大多数现有模型只能针对特定扰动单独训练,难以推广到从未见过的新药物、新剂量或药物组合。

为解决这一问题,研究人员提出了Conditional Monge Gap(CMonge),一种基于条件最优传输(Optimal Transport, OT)的新型单细胞扰动建模框架。该方法通过学习带条件信息的全局最优传输映射,实现不同药物、剂量和组合扰动之间的知识共享,并能够推广至未见过的新条件。研究人员在单细胞RNA测序数据集SciPlex以及多重蛋白成像数据集4i上进行了系统验证。结果表明,CMonge不仅在已知扰动预测中达到甚至超过当前最佳方法,而且在未见药物预测任务中显著优于主流模型chemCPA,同时更好地保持细胞群体异质性。研究人员进一步证明,通过引入药物结构信息并扩大训练规模,CMonge能够实现对数百种药物的联合学习,并利用药物分子结构预测从未观察过的新药响应,为药物筛选和药物再利用提供了新的计算框架。

理解细胞如何响应外界扰动是生物医学研究中的核心问题。随着单细胞RNA测序技术和高通量药物筛选技术的发展,研究人员能够系统观测不同细胞群体对药物、基因编辑和治疗干预的反应。然而,即使最先进的实验平台,也无法覆盖海量可能存在的药物结构、剂量组合和基因扰动空间,因此利用机器学习预测未实验测量的扰动结果成为重要研究方向。

早期方法如scGen利用变分自编码器学习扰动前后的潜在空间变化,随后出现了PerturbNet、GEARS、chemCPA以及单细胞基础模型等更复杂框架。这些方法虽然取得了显著进展,但仍面临两个关键挑战。首先,由于单细胞测序过程中细胞被破坏,扰动前后细胞无法一一对应,因此模型需要学习分布之间的变化而非样本之间的映射。其次,大多数模型缺乏对未见药物、新剂量和新扰动条件的泛化能力。

最优传输理论天然适合解决单细胞扰动建模问题,因为它能够直接学习两个细胞群体分布之间的转换关系。此前CellOT和scPRAM等方法已经利用最优传输建模细胞状态变化,但这些方法均属于“局部模型”,每一种药物或条件都需要单独训练一个模型,既无法实现知识共享,也无法预测新条件。研究人员因此提出CMonge,希望利用统一的条件最优传输框架实现跨扰动学习和泛化预测。

方法

CMonge建立在Monge Gap最优传输框架基础之上。传统Monge Gap针对每一种扰动单独学习一个最优传输映射,而CMonge则引入条件变量,将药物、剂量或药物组合信息编码为上下文嵌入,并利用统一模型同时学习多个扰动之间共享的传输规律。

模型输入包括源细胞分布和条件嵌入信息。对于药物,研究人员采用两种表示方式:一种基于药物作用机制(Mode of Action,MoA)构建嵌入;另一种基于SMILES结构计算RDKit分子指纹。对于药物剂量,则采用对数剂量表示。模型利用多层感知机学习细胞状态变化向量,并将其加到原始细胞表示上,从而获得预测的扰动后状态。对于药物组合,研究人员进一步采用DeepSets结构实现排列不变的组合表示。

研究人员在SciPlex数据集(187种药物、4个剂量、约76万细胞)和4i蛋白成像数据集(35种癌症治疗方案)上评估模型性能,并分别测试已知条件(In-Sample,IS)和未见条件(Out-of-Sample,OOS)两类预测任务。

结果

CMonge建立统一的条件最优传输框架

研究人员首先介绍了CMonge的整体设计思想。传统最优传输方法针对每一种扰动分别训练独立模型,因此不同任务之间无法共享知识。CMonge则利用统一条件模型同时学习多个扰动条件下的细胞状态转换规律,从而形成一个全局最优传输估计器。

这一设计使得模型在推理阶段只需输入新的条件信息,即可预测对应扰动后的细胞状态,而无需重新训练模型。研究人员认为,这种全局学习机制能够充分利用不同扰动之间潜在的生物学共性,从而提高泛化能力。

图1:Conditional Monge Gap总体框架示意图,包括条件编码、全局最优传输学习以及已知和未知扰动预测流程。

条件信息显著提升已知扰动预测能力

研究人员首先在SciPlex数据集上评估条件信息的重要性。实验显示,仅利用单独剂量信息构建的CMonge模型即可恢复大部分性能损失,其预测效果接近为每种药物单独训练的36个Monge模型。而当进一步加入药物信息后,性能得到进一步提升。特别是在高剂量条件下,模型能够准确重建扰动引起的细胞状态变化。

采用药物作用机制(MoA)作为条件嵌入时,单个CMonge模型已经达到甚至超过36个独立模型的整体表现。即使仅使用药物结构指纹(RDKit),随着训练药物数量增加,模型性能也持续提升。

研究人员进一步分析了MEK抑制剂Trametinib的信号通路变化,发现CMonge预测得到的富集通路与真实实验高度一致,包括MAPK信号通路及其下游转录调控网络,证明模型不仅能够预测表达变化,还能保持重要生物学机制。

图2:SciPlex数据集中不同条件模型的性能比较,以及Trametinib通路富集分析结果。

扩展至数百种药物后结构信息发挥关键作用

研究人员发现,在仅包含少量药物时,基于MoA的条件嵌入明显优于基于RDKit结构特征的嵌入。为验证这一现象是否源于训练规模不足,研究人员将训练数据扩展至SciPlex全部187种药物,共748个药物-剂量组合。此时,RDKit模型性能显著提升,并达到与MoA模型相近水平。

这一结果表明,随着药物数量增加,模型能够逐渐学会从分子结构中提取与生物学效应相关的信息。由于RDKit嵌入仅依赖药物结构,而无需实验测量数据,因此为预测全新药物响应提供了重要基础。

同时,研究人员发现CMonge计算复杂度近似随条件数量线性增长,相比为每种药物单独训练模型具有明显效率优势。

实现未见药物与未见剂量预测

研究人员进一步评估模型在未见条件下的泛化能力。对于未见剂量预测任务,传统无条件模型性能迅速下降,而加入剂量信息后的CMonge能够显著提高预测精度,即使面对训练过程中从未出现过的剂量水平,仍然保持良好表现。

更具挑战性的是未见药物预测。研究人员采用“留一药物”策略训练模型,即将某种药物全部剂量条件从训练集中移除。结果显示,基于MoA嵌入的CMonge几乎达到条件特异模型的理论上限,远超当前主流方法chemCPA。

在进一步扩大到187种药物的交叉验证实验中,基于RDKit结构表示的CMonge同样超过chemCPA。无论采用R²、Wasserstein距离还是MMD评价指标,CMonge均表现最佳。尤其在高剂量条件下,优势更加明显。

研究人员通过UMAP可视化发现,CMonge预测得到的细胞群体不仅准确落在真实目标分布附近,而且能够保持细胞群体内部的异质性结构;相比之下,chemCPA往往只能学习平均效应,预测结果出现明显模式坍塌。

图3:4i数据集与SciPlex数据集中的未见条件预测结果比较。

图4:CMonge与chemCPA在未见药物预测中的性能比较及UMAP可视化结果。

讨论

研究人员提出的Conditional Monge Gap为单细胞扰动建模提供了一种全新的条件最优传输框架。与传统方法相比,CMonge不再需要针对每种扰动训练独立模型,而是通过统一模型实现跨任务学习和知识共享,从而显著提高泛化能力。

研究结果表明,CMonge不仅在已知扰动预测中达到当前最佳水平,而且在未见药物和未见剂量预测任务中表现出色。特别是在利用药物结构信息时,模型能够从分子结构直接推断潜在细胞响应,为虚拟药物筛选和药物再利用提供了现实可行的路径。

相比近年来兴起的单细胞基础模型,CMonge参数量极小,却在多个基准测试中取得更优结果。研究人员认为,这说明针对具体科学问题设计的物理和数学归纳偏置,可能比单纯扩大模型规模更加有效。

当然,当前模型仍存在局限。例如,对于训练数据中极少出现的药物类别、高剂量条件以及完全未知细胞类型,泛化能力仍有提升空间。未来研究可结合更复杂的注意力机制、流匹配(Flow Matching)方法以及更大规模单细胞筛选数据集,进一步提高预测精度。

总体而言,CMonge展示了条件最优传输在单细胞生物学中的巨大潜力。通过将药物结构、剂量和组合信息统一纳入建模框架,研究人员为构建真正可泛化的“虚拟细胞模型”迈出了重要一步,也为精准医疗和智能药物发现提供了新的技术路线。

整理 | DrugOne团队

参考资料

Driessen, A., Rajwade, D.A., Harsanyi, B. et al. Conditional Monge Gap enables generalizable single-cell perturbation modelling. Nat Mach Intell (2026).

https://doi.org/10.1038/s42256-026-01242-8

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档