首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Cell | 当深度学习学会「开药方」:从化学结构直接预测转录组变化,再从头设计抗癌和抗纤维化新药

Cell | 当深度学习学会「开药方」:从化学结构直接预测转录组变化,再从头设计抗癌和抗纤维化新药

作者头像
MindDance
发布2026-03-31 17:49:52
发布2026-03-31 17:49:52
1400
举报

药物发现的核心逻辑之一,是找到能够逆转疾病状态的分子。如果一种疾病让某些基因异常上调、另一些基因沉默,那么理想的药物应该把这幅被扭曲的基因表达图谱重新拨回正常。这个思路并不新鲜——基于基因表达特征的药物重定位已经探索了十多年——但它始终面临一个根本瓶颈:我们只有现有化合物的转录组数据,这意味着搜索空间被严格限制在已被测量过的分子库里。化学空间的广袤程度远超任何实验数据库的覆盖范围,绝大多数潜在的治疗分子从未被纳入考量。

近日发表在 Cell 上的一项工作提出了一种名为 GPS(Gene expression Profile predictor on chemical Structures)的深度学习平台,试图从根本上打破这一限制。GPS 的核心能力在于:仅凭化合物的化学结构,就能预测它在特定细胞系中诱导的转录组扰动特征(基于 LINCS 的 978 个标志基因)。这意味着,任何一个可以被表示为分子指纹的化合物——无论它是否曾被实验测量过——都可以被高通量快速地赋予一张预测的基因表达谱。在此基础上,研究者进一步发展了从虚拟筛选到先导化合物优化的完整管线,并在肝细胞癌(HCC)和特发性肺纤维化(IPF)两个疾病模型中实现了端到端的新药发现。


从噪声数据中学习:GPS 的训练策略

GPS 面临的第一个技术挑战来自训练数据本身。模型的数据来源是 LINCS Phase I 项目——一个包含 18,746 个化合物在 978 个标志基因(landmark genes)上的表达谱数据集,涵盖 HEPG2、MCF7、PC3、VCAP 四个细胞系。这是目前最大的化合物转录组图谱之一,但它有一个众所周知的问题:实验噪声极大。同一化合物在相同条件下的重复测量之间相关性往往不高,相当一部分数据点的标签质量堪忧。

GPS 的 Robust Collaborative Learning(RCL)训练框架示意。多个对等神经网络协同学习,通过迭代评估彼此的预测一致性来识别高质量与低质量样本,并对高质量数据赋予更大的训练权重,而非简单丢弃噪声样本。
GPS 的 Robust Collaborative Learning(RCL)训练框架示意。多个对等神经网络协同学习,通过迭代评估彼此的预测一致性来识别高质量与低质量样本,并对高质量数据赋予更大的训练权重,而非简单丢弃噪声样本。

GPS 的 Robust Collaborative Learning(RCL)训练框架示意。多个对等神经网络协同学习,通过迭代评估彼此的预测一致性来识别高质量与低质量样本,并对高质量数据赋予更大的训练权重,而非简单丢弃噪声样本。

为此,研究团队设计了一种名为鲁棒协作学习(Robust Collaborative Learning, RCL)的训练策略。RCL 的思路并非像传统方法那样尝试识别并丢弃噪声数据,而是让多个对等网络相互监督——每个网络根据其他网络的预测一致性来动态评估每个训练样本的可靠程度,给高质量数据更大的权重。这种策略在模型输入端采用 ECFP4 分子指纹捕获化学结构信息,同时引入基因本体论注释来编码基因之间的功能关联性。

在外部验证数据集上的测试表明,RCL 训练的 GPS 显著优于随机森林、多任务学习等传统基线方法。

GPS(RCL)与基线方法(随机森林 RF、多任务学习 MTL 等)在外部验证集上的预测性能对比。RCL 策略在多个评估指标上均取得了显著提升。
GPS(RCL)与基线方法(随机森林 RF、多任务学习 MTL 等)在外部验证集上的预测性能对比。RCL 策略在多个评估指标上均取得了显著提升。

GPS(RCL)与基线方法(随机森林 RF、多任务学习 MTL 等)在外部验证集上的预测性能对比。RCL 策略在多个评估指标上均取得了显著提升。


预测的转录组谱能否反映真实的生物学?

一个关键问题是:GPS 预测的基因表达变化是否承载了真实的生物学信息,还是仅仅是统计拟合的产物?研究者从多个角度进行了验证。

首先,他们考察了 GPS 预测的转录组特征在化学空间生物学空间之间的关系。如果两个化合物的化学结构相似,它们预测的基因表达谱也应该相似——但反过来并不一定成立,因为结构差异很大的化合物可能通过相同的通路产生类似的转录效应。实验结果确认了这一预期:化学结构相似性与转录组相似性之间存在正相关,但转录组空间捕获了超越化学结构相似性的生物学信息。

更有说服力的是一项关于结构-基因-活性关系(SGAR)的分析。研究者发现,当按照 GPS 预测的转录组特征进行聚类时,抑制相同生物学通路的化合物比抑制相同蛋白靶标的化合物聚得更紧。这个发现意义重大:它说明 GPS 学到的不是简单的化合物-靶标映射,而是更深层的化合物-通路关联——这恰恰是基于转录组的药物发现方法相对于传统靶标驱动方法的核心优势所在。

此外,研究者还发现 GPS 预测的化合物转录谱与 shRNA 基因沉默实验的转录谱之间存在可检测的相关性——如果一个化合物的 GPS 预测谱与某个基因的 shRNA 谱高度相似,那么该基因很可能就是这个化合物的直接或间接作用靶标。


Z-RGES:量化疾病逆转的标尺

有了预测转录组的能力之后,接下来的关键一步是定义什么叫逆转疾病。研究者在经典的 RGES(Relative Gene Expression Score)基础上发展了一个归一化指标 Z-RGES。RGES 的原始定义是衡量化合物诱导的基因表达变化与疾病特征之间的反向匹配程度,但它对基因集大小敏感——基因集越大,原始分数的方差越小,不同基因集之间的分数不可直接比较。

Z-RGES 的核心改进在于:将原始 RGES 分数与一组随机基因集的背景分布进行 Z 变换,从而消除基因集大小带来的系统性偏差。这使得不同大小的疾病特征基因集之间的逆转评分可以公平比较,为后续的大规模虚拟筛选奠定了定量基础。


肝细胞癌:从七百万化合物到亚微摩尔先导物

GPS 平台的第一个端到端应用案例是肝细胞癌。研究团队从 ZINC 数据库中提取了约 700 万个类药小分子,利用 GPS 对每个化合物预测其在 HEPG2 细胞系中的转录组变化,并用 Z-RGES 评分筛选出最有可能逆转 HCC 疾病特征的候选分子。

初筛中脱颖而出的化合物 PB56874852 在 Huh7 肝癌细胞中表现出约 4 μM 的 IC₅₀,同时对原代肝细胞的毒性远低于对癌细胞的杀伤力——这种选择性在早期筛选阶段并不常见。

PB56874852 在 HCC 细胞系与原代肝细胞中的活性对比,显示该化合物对癌细胞具有选择性杀伤效果。
PB56874852 在 HCC 细胞系与原代肝细胞中的活性对比,显示该化合物对癌细胞具有选择性杀伤效果。

PB56874852 在 HCC 细胞系与原代肝细胞中的活性对比,显示该化合物对癌细胞具有选择性杀伤效果。

但 4 μM 的活性距离临床候选还有很大差距。为此,研究者启用了 GPS 管线中的先导化合物优化模块 MolSearch。MolSearch 采用两阶段蒙特卡洛树搜索(MCTS)策略:第一阶段(HIT-MCTS)优化生物学属性——包括疾病逆转评分和特定蛋白抑制活性;第二阶段(LEAD-MCTS)聚焦药物化学属性——如类药性、溶解度和合成可及性。

经过 MolSearch 优化,研究者获得了 MSU45302,其化学结构的核心修改是将原始化合物中的呋喃环替换为对溴苯/三氟甲基基团。这一修改将活性提升了一个数量级以上,在 Huh7 细胞中的 IC₅₀ 达到 0.34 μM

更关键的体内验证随之而来。在 Huh7 异种移植小鼠模型中,MSU45302 显著抑制了肿瘤生长,展现出明确的体内药效。


机制解析:UHRF1 作为 HCC 的关键效应基因

GPS 平台的另一个独特价值在于机制洞察。通过 SGAR 分析,研究者系统性地比较了不同抗 HCC 化合物在 GPS 预测的转录组特征中的共性模式,发现 UHRF1(泛素样植物同源域和环指域蛋白 1)是一个在有效抗 HCC 化合物中被一致性下调的关键基因。UHRF1 是一个已知的表观遗传调控因子,在多种肿瘤中高表达,参与 DNA 甲基化维持和组蛋白修饰。

SGAR 分析揭示 UHRF1 作为抗 HCC 化合物的共同下调靶标。不同结构的有效化合物在 GPS 预测谱中均表现出 UHRF1 的显著抑制。
SGAR 分析揭示 UHRF1 作为抗 HCC 化合物的共同下调靶标。不同结构的有效化合物在 GPS 预测谱中均表现出 UHRF1 的显著抑制。

SGAR 分析揭示 UHRF1 作为抗 HCC 化合物的共同下调靶标。不同结构的有效化合物在 GPS 预测谱中均表现出 UHRF1 的显著抑制。

为验证这一计算发现,研究者在 HCC 细胞中进行了 UHRF1 基因敲低实验。结果表明,UHRF1 敲低显著降低了肝癌细胞的活力,直接支持了 GPS 揭示的机制假说。


特发性肺纤维化:单细胞转录组驱动的精准药物发现

GPS 平台的第二个应用场景将策略推进到了一个更具挑战性的层面——利用单细胞 RNA 测序(scRNA-seq)数据构建细胞类型特异性的疾病特征,而非依赖整体组织水平的 bulk 转录组。

特发性肺纤维化(IPF)是一种病因不明、进展迅速的致命性肺部疾病,目前获批的药物仅有吡非尼酮和尼达尼布,且疗效有限。IPF 的病理学涉及多种细胞类型的协同失调,单一细胞群的 bulk 特征很难捕获疾病的全貌。研究者利用已发表的 IPF 患者肺组织 scRNA-seq 数据,分别提取了两个关键病理细胞群的基因表达特征:MUC5B⁺ 上皮细胞(IPF 中异常扩增的黏液分泌细胞,与遗传风险位点强关联)和肌成纤维细胞(纤维化过程的核心效应细胞)。

基于 scRNA-seq 数据构建 IPF 细胞类型特异性疾病特征的策略示意,分别针对 MUC5B⁺ 上皮细胞和肌成纤维细胞提取差异表达基因特征。
基于 scRNA-seq 数据构建 IPF 细胞类型特异性疾病特征的策略示意,分别针对 MUC5B⁺ 上皮细胞和肌成纤维细胞提取差异表达基因特征。

基于 scRNA-seq 数据构建 IPF 细胞类型特异性疾病特征的策略示意,分别针对 MUC5B⁺ 上皮细胞和肌成纤维细胞提取差异表达基因特征。

在药物重定位方向上,研究者通过 OCTAD 流程从已有化合物库中筛选出了 pyrithyldione(吡噻酮)这一候选分子。在人源精密切割肺切片(PCLS)实验中,pyrithyldione 的抗纤维化活性与临床一线药物尼达尼布相当。在博来霉素诱导的小鼠肺纤维化模型中,pyrithyldione 同样展现出显著的抗纤维化效果。

更令人兴奋的是新化合物的发现。研究者对 Enamine HTS 库进行了大规模虚拟筛选,寻找能够同时逆转 MUC5B⁺ 上皮和肌成纤维细胞双重疾病特征的化合物。最终锁定的先导化合物是 Drug 18(编号 Z645919648)。在来自多位 IPF 患者的 PCLS 样本中,Drug 18 在 10 μM 浓度下一致性地降低了多个纤维化标志物——包括纤维连接蛋白(FN1)、α-平滑肌肌动蛋白(SMA)和 CTHRC1。这种跨患者样本的一致疗效对于 IPF 这类患者异质性极高的疾病尤为珍贵


局限与展望

研究者在论文中也坦率地讨论了 GPS 平台的局限性。当前模型的训练基于 LINCS 数据中的 978 个标志基因,远未覆盖全基因组;训练涉及的细胞系也仅有四个,限制了预测在其他组织和细胞类型中的直接适用性。此外,LINCS 数据本身的实验噪声——尽管 RCL 策略已经显著缓解了这一问题——仍然是一个基础性约束。未来版本的 GPS 计划扩展基因覆盖范围和细胞类型多样性,进一步提高预测的生物学分辨率。

尽管如此,这项工作的核心贡献已经非常清晰:它证明了基于转录组逆转的药物发现策略不再局限于重定位已有药物,而是可以扩展到对全新化学实体的从头设计与优化。GPS 将药物的转录组效应预测从实验驱动转变为计算驱动,将搜索空间从数万个已测化合物扩展到了数百万甚至更大的虚拟化学库。从 HCC 中发现并优化出具有体内活性的亚微摩尔先导物 MSU45302,到 IPF 中通过单细胞特征找到跨患者有效的新化合物 Drug 18,这一管线展现了从基础方法论到实际药物发现的完整转化潜力。


参考文献

Deep-learning-based de novo discovery and design of therapeutics that reverse disease-associated transcriptional phenotypes. Cell. 2026. https://doi.org/10.1016/j.cell.2026.02.016


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 从噪声数据中学习:GPS 的训练策略
  • 预测的转录组谱能否反映真实的生物学?
  • Z-RGES:量化疾病逆转的标尺
  • 肝细胞癌:从七百万化合物到亚微摩尔先导物
  • 机制解析:UHRF1 作为 HCC 的关键效应基因
  • 特发性肺纤维化:单细胞转录组驱动的精准药物发现
  • 局限与展望
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档