
DRUGONE
噬菌体是地球上数量最多的生物实体之一,而细菌为了抵御其感染,进化出了复杂的先天免疫系统。这些系统不仅在生物学上具有重要意义,还被广泛应用于生物技术领域。然而,目前已发现的原核免疫系统仅是整体的一部分,其完整图谱仍未被解析。
在本研究中,研究人员开发了一个名为 DefensePredictor 的机器学习模型,用于系统性识别抗噬菌体防御系统。该模型基于蛋白语言模型构建蛋白表示,并结合基因组上下文信息进行分类。应用该模型,研究人员在多种大肠杆菌菌株中预测出大量潜在防御蛋白,并通过实验验证发现其中相当一部分确实具有抗噬菌体功能。同时,在更大规模的原核基因组中,模型识别出大量与已知系统无明显同源性的候选蛋白,提示存在尚未被发现的免疫机制。该研究表明,DefensePredictor 是发现新型原核免疫系统的强大工具,并为未来相关研究和生物技术开发提供了重要基础。

细菌与噬菌体之间长期存在着激烈的进化“军备竞赛”。在某些环境中,噬菌体每天可以感染并消灭相当比例的细菌群体,这种强烈的选择压力促使细菌不断进化出新的防御机制。
目前已知的抗噬菌体系统,如限制修饰系统和CRISPR-Cas系统,不仅揭示了原核免疫的复杂性,也为基因编辑等技术提供了革命性工具。然而,现有方法仍难以系统性发现所有防御系统。
传统策略主要依赖“防御岛”概念,即防御基因在基因组中的共定位现象。但并非所有防御系统都位于这些区域,许多系统分散在基因组或存在于可移动遗传元件中。因此,仅依赖邻近关系的方法具有明显局限性。
此外,实验筛选方法虽然有效,但成本高且难以覆盖全部基因组空间。因此,迫切需要一种能够在全基因组范围内高效、准确识别防御系统的方法。
方法
研究人员首先在约17,000个原核参考基因组中标注已知防御基因及非防御基因,并构建训练数据集。对于每个基因,研究人员不仅考虑其自身编码蛋白的信息,还结合其邻近基因的上下文信息进行建模。
蛋白表示通过蛋白语言模型 ESM2 获得,该模型能够从氨基酸序列中学习高维特征。随后,将蛋白特征与基因组上下文特征(如GC含量、基因间距离等)进行整合,构建统一的特征向量。
基于这些特征,研究人员训练了一个梯度提升模型,用于区分防御基因与非防御基因,并通过交叉验证评估模型性能。
结果
模型性能评估与方法比较
DefensePredictor 在预测未知防御基因方面表现出较高的准确性和召回率。在交叉验证中,模型能够有效识别未见过的防御基因,其性能显著优于基于同源性或基因邻近关系的方法。
进一步分析表明,模型不仅利用了蛋白序列信息,还能够捕捉到基因组层面的生物学规律,例如防御基因倾向于具有较低GC含量以及与可移动遗传元件相关联。

图1: DefensePredictor 在独立测试数据上的表现优异。
在大肠杆菌中的预测结果
研究人员将模型应用于69株具有代表性的大肠杆菌菌株,识别出数百个潜在防御蛋白簇。其中相当一部分不属于已知防御系统,甚至完全缺乏同源性,显示出极高的新颖性。
进一步分析发现,这些候选基因在基因组中的分布特征与已知防御基因类似,例如富集于可移动遗传元件和防御岛区域。这些结果表明模型预测具有较高的生物学合理性。

图2:DefensePredictor 在69株多样化大肠杆菌中识别出数百个预测防御基因。
实验验证
为了验证模型预测的可靠性,研究人员选择了一部分候选系统进行实验测试。结果显示,约一半的预测系统能够显著提高细菌对噬菌体的抵抗能力。
此外,研究人员发现多个此前未被认为具有防御功能的蛋白结构域参与了抗噬菌体过程,这提示存在大量尚未被揭示的免疫机制。

图3:预测的防御系统具有较高的实验验证成功率。
新型防御机制与进化分布
在已验证的系统中,部分包含全新的功能域或结构组合,这些系统可能通过不同于已知机制的方式发挥作用。同时,这些系统在多个细菌类群中广泛分布,表明其在进化上具有重要意义。
此外,即使是含有已知结构域的系统,其功能实现方式也可能存在差异,进一步强调了防御系统的多样性。

图4:已验证系统在多样化结构域与基因组背景中呈现丰富多样性。
模型优势与机制解释
研究人员进一步分析发现,DefensePredictor 在识别远程同源或非同源防御蛋白方面显著优于传统方法。这说明模型不仅依赖序列相似性,还学习到了更深层的结构与功能特征。
这种能力使得模型能够突破传统同源搜索的限制,从而发现全新的免疫系统。

图5:新验证的防御相关结构域在抗噬菌体过程中具有关键作用。
扩展至更广泛的原核生物
当模型应用于更大规模的原核基因组数据时,研究人员识别出数千个潜在防御蛋白簇,其中大量不属于已知类别。这一结果表明,原核免疫系统的多样性远超当前认知。
这些发现为未来研究提供了丰富资源,也为开发新型生物技术工具提供了潜在来源。

图6:仍有数千个预测防御蛋白有待进一步实验验证。
讨论
本研究提出的 DefensePredictor 模型为系统性发现原核免疫系统提供了一种全新的思路。与传统方法相比,该模型能够在不依赖同源性或基因邻近关系的情况下识别潜在防御基因,从而显著扩展了可探索的搜索空间。
实验验证结果表明,该方法不仅具有较高预测准确性,还能够发现功能未知的新型防御机制。这对于理解细菌与噬菌体之间的进化关系具有重要意义。
此外,研究人员识别的大量未知防御系统提示,原核免疫系统仍有巨大未开发潜力。这些系统可能成为未来生物技术的重要资源,例如新的基因编辑工具或抗病毒机制。
总体而言,该研究不仅提供了一个高效的计算工具,也为探索生命体系中的免疫机制开辟了新的方向。
整理 | DrugOne团队
参考资料
Peter C. DeWeirdt et al. ,DefensePredictor: A machine learning model to discover prokaryotic immune systems.Science392,eadv7924(2026).
DOI:10.1126/science.adv7924

内容为【DrugOne】公众号原创|转载请注明来源