
DRUGONE
基因注释是理解基因组序列功能的关键步骤,但现有方法在处理复杂的基因进化模式和长距离序列依赖时仍存在明显局限。研究人员提出ANNEVO,一种基于混合专家架构的基因组语言模型,可在不依赖外部证据的情况下直接从基因组序列进行高精度从头基因注释。该模型能够同时建模远距离序列关系和跨物种进化联系,在566个系统发育差异显著的物种上进行的大规模评测表明,ANNEVO显著优于传统从头注释方法,并达到甚至超过依赖RNA-seq和同源信息的综合注释流程。该方法还能够修正参考数据库中的错误注释,并生成更完整的基因结构,为大规模基因组解析提供了新的框架。

随着测序技术的发展,大量基因组被快速测定,但将DNA序列准确映射为基因结构仍是后基因组时代的重要瓶颈。传统从头注释方法依赖隐马尔可夫模型等固定参数模型,只能根据序列统计特征推断基因结构,准确率有限,因此通常需要结合RNA测序、蛋白同源性和重复序列信息构建复杂的自动注释流程。然而,这种多证据方法在缺乏实验数据的物种中效果较差,并且计算成本高,同时容易受到表达条件偏差的影响。
近年来深度学习方法将基因注释视为序列标注问题,在一定程度上提高了性能,但这些模型通常只学习局部序列模式,难以刻画不同物种间复杂的进化关系,也难以处理长基因中存在的远距离依赖。真实的基因结构受到垂直遗传、水平转移、基因融合和基因丢失等多种进化过程影响,因此需要能够在多个系统发育分支之间联合建模的算法。为此,研究人员开发了ANNEVO,通过同时建模长距离序列关系和跨物种进化信息,实现高精度且无需外部证据的基因注释。
方法
ANNEVO由上下文扩展模块、神经网络模块和基因结构解码模块组成。首先,模型在输入序列两侧加入延伸区域,以提供足够的上下文信息并减少边界效应。随后神经网络在核苷酸分辨率上进行预测,并通过混合专家架构对不同系统发育分支的基因特征进行专门建模,同时利用卷积与Transformer结构捕获长距离序列依赖。最后,通过解码算法将逐位预测结果组合为符合生物学规则的基因结构。该框架能够在不同物种之间共享进化信息,同时保持高分辨率预测能力,从而提高从头注释的准确性。
结果
ANNEVO框架总体结构
ANNEVO包含上下文扩展、神经网络预测和基因结构解码三个部分。上下文扩展通过在核心序列两侧加入额外碱基,提高模型对边界区域的预测稳定性;神经网络部分通过混合专家结构同时学习多个系统发育分支的序列特征,并利用长距离建模捕获远端依赖关系;解码模块根据预测概率重建符合生物学规则的外显子、内含子和基因区域,从而生成完整的基因结构。

图1:ANNEVO模型架构。
跨物种评测中的注释精度与速度
在来自五大系统发育类群的566个物种上进行测试,ANNEVO在核苷酸水平、基因水平和BUSCO完整性指标上均显著优于传统方法。即使使用统一模型而不进行物种特异训练,ANNEVO仍能取得更高准确率,并在计算效率上明显优于经典工具。对于大型基因组,ANNEVO能够在较短时间内完成注释,显示出良好的扩展性。

图2:模型性能评估结果。
与证据驱动注释流程的比较
研究人员将ANNEVO与依赖RNA-seq和蛋白同源性的注释流程以及其他深度学习方法进行比较。结果显示,在多个模式物种中,ANNEVO在基因完整性和BUSCO评分上达到或超过这些方法,即使不使用外部证据也能获得高质量注释。该结果表明,通过学习进化关系和序列依赖,模型能够弥补缺少实验数据带来的不足。

图3:在模式物种上与证据辅助注释流程及深度学习方法的基准比较。
改进参考注释并纠正错误基因模型
在对RefSeq和Ensembl数据库的比较中,ANNEVO在大量物种中获得更高的BUSCO完整度,并能识别参考注释中的错误。例如在部分基因组中,模型能够修正基因融合、错误剪接位点或缺失外显子等问题,并得到RNA测序数据的支持。这表明ANNEVO不仅可用于新基因组注释,也可用于改进已有数据库。

图4:与参考数据库的对比评估及注释改进结果。
讨论
ANNEVO展示了从头基因注释方法的新方向,即通过基因组语言模型直接从序列中学习进化规律,从而减少对外部证据的依赖。这种策略对于缺乏转录组或蛋白同源信息的物种尤为重要,并适用于大规模基因组测序计划。模型能够在多个系统发育分支之间共享信息,同时保持对长基因和复杂剪接结构的高精度预测,使其在准确性和效率之间取得良好平衡。
研究人员认为,未来基因注释模型需要进一步整合多模态信息,并扩展到非编码RNA和复杂转录本的预测。尽管目前ANNEVO主要针对最长转录本进行建模,但其框架具有良好的扩展性,有望成为新一代通用基因注释平台。
整理 | DrugOne团队
参考资料
Zhang, P., Xu, T., Wang, S. et al. Highly accurate ab initio gene annotation with ANNEVO. Nat Methods (2026).
https://doi.org/10.1038/s41592-026-03036-7

内容为【DrugOne】公众号原创|转载请注明来源