Nat. Mach. Intell. | 条件Monge Gap驱动的可泛化单细胞扰动建模框架

DrugAI

发布于 2026-06-05 20:31:42

DRUGONE

单细胞扰动预测旨在学习细胞在药物处理、基因编辑或其他外界干预后的状态变化规律，是精准医疗和药物发现的重要研究方向。然而，单细胞测序具有破坏性特点，同一个细胞无法同时获得干预前后状态，因此研究人员只能比较细胞群体分布而非逐细胞配对数据。这使得传统监督学习方法难以准确建模真实扰动效应。此外，绝大多数现有模型只能针对特定扰动单独训练，难以推广到从未见过的新药物、新剂量或药物组合。

为解决这一问题，研究人员提出了Conditional Monge Gap（CMonge），一种基于条件最优传输（Optimal Transport, OT）的新型单细胞扰动建模框架。该方法通过学习带条件信息的全局最优传输映射，实现不同药物、剂量和组合扰动之间的知识共享，并能够推广至未见过的新条件。研究人员在单细胞RNA测序数据集SciPlex以及多重蛋白成像数据集4i上进行了系统验证。结果表明，CMonge不仅在已知扰动预测中达到甚至超过当前最佳方法，而且在未见药物预测任务中显著优于主流模型chemCPA，同时更好地保持细胞群体异质性。研究人员进一步证明，通过引入药物结构信息并扩大训练规模，CMonge能够实现对数百种药物的联合学习，并利用药物分子结构预测从未观察过的新药响应，为药物筛选和药物再利用提供了新的计算框架。

理解细胞如何响应外界扰动是生物医学研究中的核心问题。随着单细胞RNA测序技术和高通量药物筛选技术的发展，研究人员能够系统观测不同细胞群体对药物、基因编辑和治疗干预的反应。然而，即使最先进的实验平台，也无法覆盖海量可能存在的药物结构、剂量组合和基因扰动空间，因此利用机器学习预测未实验测量的扰动结果成为重要研究方向。

早期方法如scGen利用变分自编码器学习扰动前后的潜在空间变化，随后出现了PerturbNet、GEARS、chemCPA以及单细胞基础模型等更复杂框架。这些方法虽然取得了显著进展，但仍面临两个关键挑战。首先，由于单细胞测序过程中细胞被破坏，扰动前后细胞无法一一对应，因此模型需要学习分布之间的变化而非样本之间的映射。其次，大多数模型缺乏对未见药物、新剂量和新扰动条件的泛化能力。

最优传输理论天然适合解决单细胞扰动建模问题，因为它能够直接学习两个细胞群体分布之间的转换关系。此前CellOT和scPRAM等方法已经利用最优传输建模细胞状态变化，但这些方法均属于“局部模型”，每一种药物或条件都需要单独训练一个模型，既无法实现知识共享，也无法预测新条件。研究人员因此提出CMonge，希望利用统一的条件最优传输框架实现跨扰动学习和泛化预测。

方法

CMonge建立在Monge Gap最优传输框架基础之上。传统Monge Gap针对每一种扰动单独学习一个最优传输映射，而CMonge则引入条件变量，将药物、剂量或药物组合信息编码为上下文嵌入，并利用统一模型同时学习多个扰动之间共享的传输规律。

模型输入包括源细胞分布和条件嵌入信息。对于药物，研究人员采用两种表示方式：一种基于药物作用机制（Mode of Action，MoA）构建嵌入；另一种基于SMILES结构计算RDKit分子指纹。对于药物剂量，则采用对数剂量表示。模型利用多层感知机学习细胞状态变化向量，并将其加到原始细胞表示上，从而获得预测的扰动后状态。对于药物组合，研究人员进一步采用DeepSets结构实现排列不变的组合表示。

研究人员在SciPlex数据集（187种药物、4个剂量、约76万细胞）和4i蛋白成像数据集（35种癌症治疗方案）上评估模型性能，并分别测试已知条件（In-Sample，IS）和未见条件（Out-of-Sample，OOS）两类预测任务。

结果

CMonge建立统一的条件最优传输框架

研究人员首先介绍了CMonge的整体设计思想。传统最优传输方法针对每一种扰动分别训练独立模型，因此不同任务之间无法共享知识。CMonge则利用统一条件模型同时学习多个扰动条件下的细胞状态转换规律，从而形成一个全局最优传输估计器。

这一设计使得模型在推理阶段只需输入新的条件信息，即可预测对应扰动后的细胞状态，而无需重新训练模型。研究人员认为，这种全局学习机制能够充分利用不同扰动之间潜在的生物学共性，从而提高泛化能力。

图1：Conditional Monge Gap总体框架示意图，包括条件编码、全局最优传输学习以及已知和未知扰动预测流程。

条件信息显著提升已知扰动预测能力

研究人员首先在SciPlex数据集上评估条件信息的重要性。实验显示，仅利用单独剂量信息构建的CMonge模型即可恢复大部分性能损失，其预测效果接近为每种药物单独训练的36个Monge模型。而当进一步加入药物信息后，性能得到进一步提升。特别是在高剂量条件下，模型能够准确重建扰动引起的细胞状态变化。

采用药物作用机制（MoA）作为条件嵌入时，单个CMonge模型已经达到甚至超过36个独立模型的整体表现。即使仅使用药物结构指纹（RDKit），随着训练药物数量增加，模型性能也持续提升。

研究人员进一步分析了MEK抑制剂Trametinib的信号通路变化，发现CMonge预测得到的富集通路与真实实验高度一致，包括MAPK信号通路及其下游转录调控网络，证明模型不仅能够预测表达变化，还能保持重要生物学机制。

图2：SciPlex数据集中不同条件模型的性能比较，以及Trametinib通路富集分析结果。

扩展至数百种药物后结构信息发挥关键作用

研究人员发现，在仅包含少量药物时，基于MoA的条件嵌入明显优于基于RDKit结构特征的嵌入。为验证这一现象是否源于训练规模不足，研究人员将训练数据扩展至SciPlex全部187种药物，共748个药物-剂量组合。此时，RDKit模型性能显著提升，并达到与MoA模型相近水平。

这一结果表明，随着药物数量增加，模型能够逐渐学会从分子结构中提取与生物学效应相关的信息。由于RDKit嵌入仅依赖药物结构，而无需实验测量数据，因此为预测全新药物响应提供了重要基础。

同时，研究人员发现CMonge计算复杂度近似随条件数量线性增长，相比为每种药物单独训练模型具有明显效率优势。

实现未见药物与未见剂量预测

研究人员进一步评估模型在未见条件下的泛化能力。对于未见剂量预测任务，传统无条件模型性能迅速下降，而加入剂量信息后的CMonge能够显著提高预测精度，即使面对训练过程中从未出现过的剂量水平，仍然保持良好表现。

更具挑战性的是未见药物预测。研究人员采用“留一药物”策略训练模型，即将某种药物全部剂量条件从训练集中移除。结果显示，基于MoA嵌入的CMonge几乎达到条件特异模型的理论上限，远超当前主流方法chemCPA。

在进一步扩大到187种药物的交叉验证实验中，基于RDKit结构表示的CMonge同样超过chemCPA。无论采用R²、Wasserstein距离还是MMD评价指标，CMonge均表现最佳。尤其在高剂量条件下，优势更加明显。

研究人员通过UMAP可视化发现，CMonge预测得到的细胞群体不仅准确落在真实目标分布附近，而且能够保持细胞群体内部的异质性结构；相比之下，chemCPA往往只能学习平均效应，预测结果出现明显模式坍塌。

图3：4i数据集与SciPlex数据集中的未见条件预测结果比较。

图4：CMonge与chemCPA在未见药物预测中的性能比较及UMAP可视化结果。

讨论

研究人员提出的Conditional Monge Gap为单细胞扰动建模提供了一种全新的条件最优传输框架。与传统方法相比，CMonge不再需要针对每种扰动训练独立模型，而是通过统一模型实现跨任务学习和知识共享，从而显著提高泛化能力。

研究结果表明，CMonge不仅在已知扰动预测中达到当前最佳水平，而且在未见药物和未见剂量预测任务中表现出色。特别是在利用药物结构信息时，模型能够从分子结构直接推断潜在细胞响应，为虚拟药物筛选和药物再利用提供了现实可行的路径。

相比近年来兴起的单细胞基础模型，CMonge参数量极小，却在多个基准测试中取得更优结果。研究人员认为，这说明针对具体科学问题设计的物理和数学归纳偏置，可能比单纯扩大模型规模更加有效。

当然，当前模型仍存在局限。例如，对于训练数据中极少出现的药物类别、高剂量条件以及完全未知细胞类型，泛化能力仍有提升空间。未来研究可结合更复杂的注意力机制、流匹配（Flow Matching）方法以及更大规模单细胞筛选数据集，进一步提高预测精度。

总体而言，CMonge展示了条件最优传输在单细胞生物学中的巨大潜力。通过将药物结构、剂量和组合信息统一纳入建模框架，研究人员为构建真正可泛化的“虚拟细胞模型”迈出了重要一步，也为精准医疗和智能药物发现提供了新的技术路线。

整理 | DrugOne团队

参考资料

Driessen, A., Rajwade, D.A., Harsanyi, B. et al. Conditional Monge Gap enables generalizable single-cell perturbation modelling. Nat Mach Intell (2026).

https://doi.org/10.1038/s42256-026-01242-8

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-06-04，如有侵权请联系 cloudcommunity@tencent.com 删除

框架