ESM-2是一个基于Transformer的语言模型,并使用注意力机制来学习输入序列中成对氨基酸之间的相互作用模式。 从结果来看,具有1.5亿个参数的ESM-2模型比具有6.5亿个参数的ESM-1b模型表现得更好。 此外,在结构预测的基准上,ESM-2也超过了其他的蛋白质语言模型。 随着ESM-2规模的增加,可以观察到语言建模的精度有很大的提高。 ESM-2系列的模型是迄今为止训练的最大的蛋白质语言模型,其参数仅比最近开发的最大文本模型少一个数量级。 而且,ESM-2比以前的模型有非常大的改进,即使在150M的参数下,ESM-2也比ESM-1代语言模型在6.5亿的参数下捕捉到更准确的结构图。 研究人员表示,ESMFold性能的最大驱动力是语言模型。
为确保进化合理性,研究人员使用预训练蛋白语言模型 ESM-2 对噪声序列进行编码。大量实验结果表明,该模型可生成具有高准确度序列与结构并具高亲和力的抗体,在多项设计任务上均优于现有方法。 为此,研究人员提出了 AbEgDiffuser 框架,将双层等变图神经网络(Bi-EGNN)与扩散模型(DDPM)结合,并引入蛋白语言模型 ESM-2 的进化约束,用于系统性解决抗体 CDR 序列与结构协同设计问题 模型在多阶段网络中利用 双层几何图(残基层和原子层)进行编码: Bi-EGNN 模块通过等变注意力机制捕获跨尺度相互作用; ESM-2 模块将噪声序列嵌入进化特征空间,引导生成结果保持生物学合理性; 扩散过程在氨基酸类型 消融实验 研究分别移除 ESM-2 约束与双层几何图结构进行对比。结果表明,去除 ESM-2 或改为单层图均显著降低模型性能,验证了 进化约束与双层几何建模的核心贡献。 模型中的双层等变图神经网络有效地捕获了原子与残基层级的相互作用,进化语言模型 ESM-2 则提供了生物学约束,使生成结果在功能上更符合真实蛋白的规律。
VespaG以预训练的蛋白质语言模型ESM-2计算的具有30亿个参数的蛋白质中残基的2560维向量表示作为唯一输入,并输出预测突变结果估计的20维向量。 图1 VespaG结构图 ESM-2与其上一代的版本ESM-1b相似,都是一个基于BERT架构的蛋白质语言模型,该模型使用掩码语言建模作为预训练任务。 GEMME的加入在一定程度上增强了蛋白质语言模型预测病毒蛋白的性能,使得VespaG的性能超越了两种语言模型ESM-2和SaProt。 作者还使用另一个蛋白质语言模型ProtT5来替换ESM-2。 ESM-2在不同结构上的损失函数都低于ProtT5,表明ESM-2的BERT架构和旋转位置编码能够更好地建模蛋白质序列中隐含的变异效应信息。 图3 消融实验 作者还进行了案例分析。
论文对SaProt和ESM-2在残基接触预测任务(Contact Prediction Task)上进行了测试。作者冻住了模型的backbone,只训练一个线性分类层。 实验结果如下: 图:Contact Prediction Task的结果 从结果可以看到,由于结构token的嵌入,SaProt的表现大大超越了ESM-2,这表明SaProt蕴含了非常丰富的结构信息,使其能够在结构预测任务上获得十分优异的结果 数据库上对alpha蛋白质和beta蛋白质进行了可视化,结果如下: 图:在SCOPe数据库上的Embedding可视化 SaProt的可视化结果非常清晰地将alpha蛋白质和beta蛋白质区分开来,而ESM 结果如下: 图:不同结构预测方法的fine-tune结果 从测试结果可以看出,虽然SaProt在AF2结构上的表现最好(模型本身也是基于AF2结构进行训练的),但其他的结构预测方法也能让SaProt与ESM
论文对SaProt和ESM-2在残基接触预测任务(Contact Prediction Task)上进行了测试。作者冻住了模型的backbone,只训练一个线性分类层。 实验结果如下: Contact Prediction Task的结果 从结果可以看到,由于结构token的嵌入,SaProt的表现大大超越了ESM-2,这表明SaProt蕴含了非常丰富的结构信息,使其能够在结构预测任务上获得十分优异的结果 SCOPe数据库上对alpha蛋白质和beta蛋白质进行了可视化,结果如下: 在SCOPe数据库上的Embedding可视化 SaProt的可视化结果非常清晰地将alpha蛋白质和beta蛋白质区分开来,而ESM 结果如下: 不同结构预测方法的fine-tune结果 从测试结果可以看出,虽然SaProt在AF2结构上的表现最好(模型本身也是基于AF2结构进行训练的),但其他的结构预测方法也能让SaProt与ESM
图1 DrugLAMP结构图 ESM-2是一种通用的蛋白质语言模型,对于ESM-2的输入序列,作者根据以下生物学事实反复填充输入序列:药物可能只结合约占10-20%的蛋白质上的特定位点并发挥作用。 为了充分利用这种先验知识,作者进行口袋操作,在序列的连续片段上标记,包含来自ESM-2的嵌入。 该过程包括将蛋白质序列划分为每个9个氨基酸的重叠片段(基于典型的结合口袋大小),使用ESM-2提取每个片段的特征,然后对这些片段特征进行平均操作,以获得每个口袋的单个向量表示。 DrugLAMP使用先进的分子预训练语言模型ChemBERTa-2和蛋白质预训练语言模型ESM-2来增强DTI配对数据训练的分子图网络和蛋白质特征提取器,使用基于注意力机制的模态融合模块PMMA和PGCA 虽然作者使用ESM-2和ChemBERTa-2作为提取嵌入的PLM,但DrugLAMP框架适用于任何能够提取丰富信息的高级PLM,从而在未来能够整合PLM的最新进展。 参考文献 Luo et al.
ESMFold介绍ESMFold是一种基于深度学习的蛋白质结构预测框架,其核心创新在于将超大规模蛋白质语言模型(如ESM-2)与几何优化模块结合,直接从氨基酸序列预测三维结构,于2023年正式发表于《Science 网络架构ESMFold的核心架构由两大模块构成:蛋白质语言模型编码器(ESM-2)与几何解码优化模块,其设计目标是通过端到端深度学习直接从氨基酸序列预测高精度三维结构。 蛋白质语言模型编码器(ESM-2)输入处理: 输入为单条氨基酸序列(长度≤1024),通过词嵌入层映射为初始特征向量(维度1280)。注意力编码: 采用34层Transformer架构。 训练策略:两阶段训练:先预训练ESM-2语言模型(250M参数,UniRef50数据集),再联合微调解码模块损失函数:联合优化距离分类交叉熵、角度均方误差(MSE)及结构相似性指标(如TM-score)
本次发布的BioNeMo框架包括ESM-2和Geneformer模型,我们展示了其相较于PyTorch实现的训练吞吐量提高了两倍以上,并在多设备训练中实现了接近线性的扩展,支持多达256个GPU。 功能概述 BERT模型架构支持 BioNeMo框架支持两种BERT模型实现: ESM-2:用于蛋白质序列建模,封装在 bionemo-esm2 子模块中。 基准测试与结果 单设备性能 ESM-2 650M参数模型:在NVIDIA A100 GPU上,BioNeMo的最大批量为 46(对比基线16),训练吞吐量为基线的 1.47倍,浮点操作利用率(MFU)达到 多个机构已通过实际应用为框架做出贡献,包括以下典型案例: Dyno Therapeutics:这家专注于基因治疗载体开发的公司,在ESM-2模型中实现了参数高效微调功能,允许冻结部分网络层,仅对最相关的部分进行微调 共享贡献 A-Alpha Bio贡献了其用于零样本蛋白质设计的ESM-2笔记本代码,现已集成到BioNeMo框架代码库中。
零样本预测器的作用 研究人员评估了六类零样本预测器: 序列基础:汉明距离、EVmutation、ESM-2。 结构基础:ESM-IF、CoVES、Triad。 结果显示: EVmutation 与 ESM-2 在适应度排序和活性分类中表现最佳; ESM-IF 提供额外结构信息,在某些景观中优于纯序列方法; Triad 与 CoVES 在部分景观中预测有限,但在低活性变体比例的情况下仍优于随机采样
学习阅读生物学语言 如下图所示,ESM-2 语言模型经过训练,可以预测进化过程中被序列掩盖的氨基酸。Meta AI 发现,作为训练的结果,蛋白质结构的信息出现在该模型的内部状态中。 现在,Meta AI 扩展了这种方法,用来创建下一代蛋白质语言模型 ESM-2,它的参数为 150 亿,是迄今为止最大的蛋白质语言模型。 Meta AI 的 ESM-2 语言模型在其对蛋白质序列的训练过程中学习这些进化模式,进而能够直接从蛋白质序列中对 3D 结构进行高分辨率预测。 下图展示了使用 ESM-2 语言模型进行蛋白质折叠。
实验使用九个生物活性肽数据集进行迁移学习,与ESM-2对比。结果显示,PepBERT在多数数据集上性能优于或与ESM-2相当。该模型为肽表示提供了高效解决方案,推动了肽相关研究。 4. 该框架利用预训练的ESM-2作为编码器,设计了压缩机和解压器对潜在空间进行重新设计,并运用整流流和回流技术实现快速生成。
首先,作者选择ESM-2作为基础PLM,因为其训练数据量大,模型规模分别超过2亿蛋白质和150亿参数。 使用ESM-2 150亿参数模型,作者的网格搜索发现最佳策略为:(i)选择随机的一组第一轮变体,(ii)使用随机森林回归模型预测蛋白质活性,(iii)使用所有氨基酸平均的嵌入,以及(iv)在每轮进化中采用前 使用网格搜索中的最佳参数,作者将ESM-2 15B与较小版本的ESM-2和ESM-1、UniRep、ProtT5、ProteinBERT、Ankh、独热编码(one-hot encoding)和整数编码 ESM-2 15B参数模型在除两个数据集外的所有数据集上表现优于其他模型,并得到了最高比例的高活性突变体,确认其被最终选为EVOLVEpro潜在空间模型(图1B)。 鉴于ESM-2 15B的高维度以及顶层回归模型所见样本数量较少,作者探讨了是否需要全输入维度(full input dimension)来实现观察到的模型性能。
为此,作者提出了一个通过ESM-2蛋白质语言模型的肽潜在空间高斯扰动来生成自然状态肽候选物的过程,随后通过基于对比语言-图像预训练(CLIP)的对比学习架构筛选这些新序列的靶点选择性相互作用活性。 受OpenAI 的CLIP研究工作的启发,作者首先利用ESM-2 pLM通过对真实肽结合剂序列的嵌入应用高斯噪声来生成不同但自然的肽候选物。 作者进一步对CLIP模型的输入嵌入进行了消融研究,并证明当遵循两种训练范式时,与简单的学习嵌入或BLOSUM62嵌入相比,为肽和靶点编码器部署ESM-2嵌入对于高性能至关重要,强调了利用有表现力的预训练 ESM-2的潜在空间嵌入自然状态的蛋白质序列,其中潜在空间中的相似位置对应于生物学相似性。因此,作者预计,如果在自然发生肽周围的潜在空间区域进行采样,将会恢复与自然界中发现的相似的肽序列。
在靶点序列表示方面,评估了领先的蛋白质预训练模型的嵌入:ESM-2、ProtBert和ProtT5。 图3C显示,在Davis数据集上,ProtBert的表现优于其他模型,而ESM-2在KIBA数据集上表现最佳。
研究人员提出 InterPLM:在 ESM-2 表示上训练稀疏自编码器(SAE),从而提取成千上万个人类可解释的特征,覆盖结合位点、结构基序与功能结构域等概念;单个“神经元”对概念的对齐度较低,提示 PLM 但结构 TM-score≈0.74–0.78;许多高激活蛋白在 UniProtKB 中没有相应结合位点标签,提示可用于发现新/漏注功能位点 可解释特征可定向引导序列生成 为验证特征的因果效应,研究人员在 ESM
我们这次用 Meta AI 的 ESM-2 模型,通过计算一对蛋白序列在“掩码语言模型”(MLM)任务中的平均损失,来判断它们是否可能相互作用。 如果你想使用更大模型和更长的上下文窗口,可以考虑其它 ESM-2 模型,例如 esm2_t36_3B_UR50D。你也可以尝试调整上述代码中的 max_length。 torch.device("cuda" if torch.cuda.is_available() else "cpu") # Load the pretrained (or fine-tuned) ESM
为解决此问题,研究人员提出 PLM-interact:直接在蛋白对上微调预训练语言模型 ESM-2,使模型在训练中联合编码两个蛋白序列,从注意力层学习跨链残基关联,从而建立跨蛋白语义连接。 图1. 传统 PPI 模型与 PLM-interact 架构对比示意 方法 PLM-interact 在 ESM-2 模型基础上进行两项关键扩展: 联合序列编:将两个蛋白序列连接输入 Transformer,使注意力层能学习跨蛋白残基对应关系
这正是由Meta建立的有15B参数的ESM-2所做的工作。 通过利用语言模型(ESM-2)的内在表征,ESMFold 只使用单序列作为输入就能生成结构预测,从而大大加快了结构预测的速度。 虽然ESM-2的准确性不如当时的AlphaFold,但它是一种有趣且简单的方法,可以利用不断扩大的多样化的未注释蛋白质序列数据: 为了进一步说明ESM蛋白质模型的惊人能力,研究人员用高度优化的单克隆抗体
采用ESM-2模型(esm2_t33_650M_UR50D)根据给定蛋白质的氨基酸序列生成1280维嵌入进化信息。 糖类化合物:节点和边分别代表原子和键。引入了512维的分子特征。
例如,ESM-2是一个基于转换器架构的蛋白质语言模型,能够在不依赖实验数据的情况下预测蛋白质的稳定性、相互作用和突变影响。 应用场景: 直接预测:预测氨基酸序列中每个位置的氨基酸类型。 结论与展望 本入门指南说明了如何使用语言模型(包括ChatGPT等自然语言模型和ESM-2和Geneformer等生物语言模型)来推进生物学研究。