
DRUGONE
蛋白序列空间中功能序列的分布对于进化理论与蛋白设计具有基础性意义,尤其是在尚未被进化探索的区域中可能隐藏着丰富的新功能。研究人员针对一个核心问题展开研究:现存蛋白序列是否能够代表整个功能性序列空间。通过分析来自脊椎动物和细菌的数千个蛋白家族,研究人员计算了现存序列在序列空间中的维度与体积,并发现其规模远小于理论模型所预测的功能空间。进一步通过模拟进化过程,研究人员量化了系统发育、选择压力和表观遗传相互作用对序列空间探索的限制作用。结果表明,从单一共同祖先出发的进化路径,是限制蛋白序列空间探索的最主要因素。这意味着仍有大量潜在的功能序列未被自然进化触及,同时也提示依赖天然序列训练的蛋白设计方法可能存在根本局限。

蛋白序列空间是一个极其高维且庞大的抽象空间,包含所有可能的氨基酸序列。然而,在这个空间中真正具有功能的序列极为稀少。自然界中观察到的蛋白序列只是其中一个极小的子集,这些序列通过长期进化从共同祖先逐步演化而来。
在进化过程中,蛋白必须维持功能,因此其演化路径受到适应度景观的限制。该景观由高适应度“山脊”和低适应度“谷地”构成,而不同位点之间的相互作用(即表观遗传相互作用)使得这一景观具有复杂的结构。序列的可达性不仅取决于局部突变的可行性,还取决于整个路径是否保持功能连续性。
尽管已有研究从实验测量、统计建模和深度学习等角度探索适应度景观,但这些方法主要集中在局部区域,对整个序列空间的全局结构了解仍然有限。特别是一个关键问题尚未得到回答:自然进化是否已经充分探索了功能性序列空间。
方法
研究人员通过计算蛋白序列分布的“内在维度”来量化序列空间的占据情况,具体采用相关维度方法评估序列间距离随尺度变化的增长关系。同时,利用多序列比对数据构建不同蛋白家族的序列空间表示,并通过模拟进化模型系统分析选择压力、表观遗传相互作用以及系统发育结构对序列分布的影响。

图1: 序列空间的维度与体积。
结果
现存序列空间维度远低于理论上限
研究人员首先估计了多个蛋白家族在序列空间中的有效维度。结果显示,这些维度远低于理论最大值,即使对于较长蛋白,实际占据的空间仍然极为有限。在部分蛋白家族中,有效维度甚至接近1,说明序列分布高度受限。

图2: 点集与蛋白序列的相关维度分析。
选择压力与进化速率的影响有限
研究人员分析了选择压力对序列空间探索的影响。虽然进化较慢的蛋白家族确实表现出更低的维度,但即使在进化较快的蛋白中,序列空间的扩展仍远低于理论预期。这表明选择压力只能解释局部差异,而无法解释整体受限现象。
表观遗传相互作用的双重作用
研究人员进一步研究了表观遗传相互作用的影响。结果显示,这类相互作用在局部范围内限制突变路径,但在长期尺度上却允许探索更远的序列区域。然而,总体而言,表观遗传相互作用对降低序列空间维度的作用有限,无法解释观察到的强限制现象。

图3: 自然序列与模拟序列的维度比较。
系统发育结构显著影响序列分布
通过模拟不同进化树结构,研究人员发现系统发育对序列空间维度具有显著影响。具有更长分支或更分散结构的进化树可以略微增加序列空间探索范围,但仍远低于理论极限。这说明进化路径的结构会影响探索效率,但不是决定性因素。
“起点效应”是最主要限制因素
研究人员发现,最关键的限制来源于“起点效应”,即所有序列均从一个共同祖先出发进行演化。这种单点起始的扩展方式导致序列只能在局部区域逐步扩散,而无法随机覆盖整个功能空间。
与之对比,如果从整个空间中随机采样序列,则可以达到理论最大维度。这一结果明确表明,自然进化路径本身限制了可达序列空间。

图4: 表观遗传相互作用对序列空间探索及模拟序列维度的影响。
功能序列空间远未被探索
通过进一步估算,研究人员发现实际进化所覆盖的功能序列空间仅占理论空间的极小一部分。例如,在某些蛋白家族中,理论可行空间比实际观察到的序列空间大出数十个数量级。即使经过数十亿年的进化,蛋白序列空间仍远未被充分探索。

图5: 系统发育树拓扑结构对序列空间维度的影响。
时间尺度对探索能力的影响
研究人员还分析了进化时间对序列空间探索的影响。结果显示,随着时间延长,序列空间维度确实增加,但增长速度极为缓慢。即使从生命起源至今,进化也仅探索了极其有限的区域,远未接近理论极限。

图6: 起点效应的影响及其生物学意义。
讨论
研究人员的工作揭示了蛋白序列空间探索中的一个关键限制机制,即由共同祖先引起的路径依赖效应。这一发现表明,自然界中观察到的蛋白序列并不能代表全部功能序列空间,而只是其中极小的一部分。
这一结论对蛋白设计与人工智能模型具有重要意义。当前许多方法依赖天然序列进行训练,但如果这些数据本身仅覆盖有限空间,则模型在预测新功能时将受到根本限制。因此,探索“非天然”序列空间,可能是发现全新蛋白功能的关键路径。
总体而言,该研究从进化动力学角度重新审视了蛋白序列空间的可达性问题,提出了自然进化远未穷尽功能空间的重要观点,为未来蛋白工程与AI设计提供了新的理论基础。
整理 | DrugOne团队
参考资料
L.H. Isakova,E. Streltsova,O.O. Bochkareva,P.K. Vlasov, & F.A. Kondrashov, Descent from a common ancestor restricts exploration of protein sequence space, Proc. Natl. Acad. Sci. U.S.A. 123 (14) e2532018123, https://doi.org/10.1073/pnas.2532018123 (2026).

内容为【DrugOne】公众号原创|转载请注明来源