


Lauren H. Cooke, Vineet K. Raghu丨美国马萨诸塞州综合医院与哈佛医学院心血管影像研究中心
深度学习在胸部X光(CXR)解释中取得了卓越成就,但多任务和基础模型极易陷入“捷径学习”,即依赖于脱靶病变或伴随特征等虚假相关性而非真实的病理表现来做出诊断。这种缺陷严重限制了模型的特异性及其在真实临床环境中的泛化能力。
当前的解释性工具难以量化或在训练期间直接消除这种偏差。本文提出基于开源组件RoentGen构建的反事实图像编辑框架RoentMod,能够在保持患者原有解剖特征的前提下合成特定病理表现,从而探测并彻底修正医学AI中潜藏的捷径学习漏洞。
RoentGen 是由斯坦福大学 MIMI 实验室开发的一个开源 AI 模 型,专门用于根据自由文本描述生成逼真的合成胸部 X 光片(CXR)。 RoentGen 就像一个"放射科 AI 画家"——你用医学语言描述病情,它就画出对应的 X 光片,从而为医疗 AI 的训练和研究提供充足的合成影像数据。

RoentGen 的核心是一个领域自适应的潜在扩散模型(Latent Diffusion Model, LDM):
步骤 | 说明 |
|---|---|
基础模型 | 在大量自然图像与文本对上预训练的扩散模型(类似 Stable Diffusion) |
领域适配 | 在医学影像数据集(如 MIMIC-CXR)上进行微调,使其理解放射学术语 |
文本控制 | 输入自由格式的放射科描述文本(如"右肺有肺炎浸润影"),即可生成对应图像 |
去噪过程 | 通过迭代去噪过程生成高质量、多样化的 X 光图像 |

将经过医学微调的文本到图像模型(RoentGen)与开源图像到图像扩散架构(Stable Diffusion Image-to-Image)直接结合,构建反事实胸部X光生成模型RoentMod。
通过放射科专家盲审以及配对Fréchet Inception Distance(pFID)等定量指标,在MIMIC-CXR队列上评估合成图像的真实度、文本提示依从性以及对患者原有解剖结构的保留程度。
利用RoentMod在真实“无发现”扫描图像上逐一添加单一病变,通过观测目标与非目标病理预测概率的变化分布,量化评估现有先进多任务及基础模型(如TorchXRayVision、ElixrB、Ark+)的捷径学习现象。
引入RoentMod生成的反事实图像与真实NIH CXR-14数据联合训练新型多任务诊断模型,消除模型对脱靶特征的依赖,并在MIMIC-CXR、CheXpert及PadChest等外部队列中验证其判别性能的提升。

两名放射科专家盲审证实,93%的合成图像具备真实患者外观,89%至99%的图像成功引入了目标病理特征(如水肿、胸腔积液等),且极少诱发未提示的异常表现(图3,补充图1)。


多病理共现分析表明,除符合生理规律的并发症(如水肿常伴发心脏肥大)外,系统有效限制了无关疾病的生成,精准锚定指定的修改意图(补充图1,补充表1)。


pFID评估及像素级分析确证,反事实合成图像较异源真实图像更接近其基线扫描。系统仅在对应的解剖靶区引发像素强度改变,成功锁定了受试者的身份与其余原生解剖构造(补充图3)。

补充图 3:对 RoentMod 编辑所引发的微小图像变化的评估。 图中展示了来自 MIMIC-CXR 阅片者研究队列中,经 RoentMod 修改以添加病理特征的 X 射线影像在空间分辨像素强度(左)、平均像素强度(中)以及像素强度分布(右)方面的变化。
对基础及多任务模型的压力测试显示,引入单一非目标病变即可系统性拉高所有其他疾病的预测概率百分位,揭示了当前先进诊断模型普遍利用病理共现作为分类捷径(图2a)。

引入反事实扫描作为增强数据进行训练后,模型不仅消除了对脱靶病变的异常敏感性,更在多个内外部队列中将六种疾病的整体判别力(AUC)显著提升了3%至19%(图2b)。

结论:多任务和医学基础视觉模型存在显著的捷径学习缺陷,常错误地利用任何可见病变作为判定其他疾病的依据。RoentMod可以生成高保真的反事实胸部X光片来暴露这一问题;将其生成的对抗性样本反哺于模型训练,不仅能纠正这种虚假相关性,还能显著提升模型跨机构泛化能力。
创新点:
本研究所有测试与训练均基于完全公开的匿名化大型队列:
参考文献:Cooke, L.H., Jung, M., Brendel, J.M. et al. RoentMod: a synthetic chest X-ray modification model to identify and correct image interpretation model shortcuts. npj Digit. Med. (2026). https://doi.org/10.1038/s41746-026-02497-6



本文仅作学术学习翻译,译文若有疏漏,欢迎批评指正;原文版权归文献方所有,本内容非商用,如涉及侵权,敬请联系后台删除。