首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >浙大团队打造PRISM:面向 CADD 智能体的高通量蛋白-配体模拟基础设施

浙大团队打造PRISM:面向 CADD 智能体的高通量蛋白-配体模拟基础设施

作者头像
DrugIntel
发布2026-04-13 17:50:01
发布2026-04-13 17:50:01
610
举报

论文信息PRISM: A High-Throughput Simulation Infrastructure for CADD Agents 作者:Zhaoqi Shi†, Xufan Gao†, Mingyu Xu†, Xuanyi Zhu, Peng Wang, Yuxuan Yang, Zaixing Yang, Ruhong Zhou* 机构:浙江大学;哥伦比亚大学 预印本:bioRxiv, doi: 10.64898/2026.04.02.716083(2026年4月6日) 开源地址:https://github.com/AIB001/PRISM 教程:http://www.prism-tutorial.com


一、背景与动机:一个长期存在的"基础设施缺口"

计算机辅助药物设计(Computer-Aided Drug Design, CADD)近年来借助人工智能获得了显著加速,但在实际落地中,一个长期被忽视的矛盾日益凸显:AI 模型的推理能力远超其所能调用的计算基础设施的整合程度

具体而言,蛋白-配体模拟工作流长期呈碎片化状态:

  • 配体参数化依赖 AmberTools、OpenFF Toolkit、LigParGen 等不同生态的工具,输出格式互不兼容;
  • 体系构建需要手动完成 PDB 修复、质子化状态预测、溶剂化与拓扑合并等多个步骤;
  • 模拟执行与后分析往往分散在 GROMACS、AMBER、MDTraj、自定义脚本之间;
  • 结合自由能计算(MM/PBSA、PMF、FEP)各有独立的参数配置与输出规范。

现有平台各有局限:CHARMM-GUI 的交互式提交模式不适合高通量批量任务;OpenMMDL 深度绑定 OpenMM 生态;CHAPERONg 的配体参数生成仍依赖外部服务 LigParGen,尚未形成完整闭环。

更关键的是,随着 LLM 驱动的科学 AI 智能体(如 ChemLint、Biomni)的兴起,"智能体能编排多步计算任务"的前提,是存在一套可被程序化调用、具备良好抽象界面的计算后端。然而,这恰恰是当前 CADD 工具链最薄弱的环节。

浙江大学团队的 PRISM(Protein-Receptor Interaction Simulation Modeler)正是为填补这一缺口而设计的。


二、PRISM 平台架构:五层一体化工作流

PRISM 以 GROMACS 为计算核心,构建了覆盖从原始输入到分析输出的五层流水线,所有模块共享统一的数据格式规范(GRO 坐标 + ITP 拓扑 + 力场文件 + 位置约束文件),确保各阶段无缝衔接。

代码语言:javascript
复制
输入验证 → 蛋白预处理 → 多路径配体参数化 → 模拟执行 → 轨迹后分析

2.1 多力场统一配体参数化

这是 PRISM 区别于现有工具最核心的技术贡献之一。用户通过单一命令行参数即可切换以下参数化路径:

力场

实现路径

电荷方法

GAFF / GAFF2

AmberTools (Antechamber + tleap + ACPYPE)

AM1-BCC(默认)

OpenFF (SMIRNOFF)

OpenFF Toolkit + Interchange

SMIRNOFF 直接感知

CGenFF

解析预生成的 stream 文件

CHARMM 内置

OPLS-AA

LigParGen 服务器

CM1A-LBCC

MMFF / MATCH / 混合

SwissParam 网络服务

对应方法内置

可选高精度电荷模块:PRISM 集成了基于 Gaussian 的 RESP(Restrained Electrostatic Potential)电荷计算模块,支持 HF/6-31G* 和 B3LYP/6-31G* 两种理论级别的静电势计算,生成的 RESP 拟合电荷可无缝替换 AM1-BCC,适用于对电荷精度要求较高的生产级计算任务。

无论选择哪条参数化路径,所有输出均遵循同一格式规范,下游模块行为完全一致——这正是"统一接口"设计哲学的核心价值。

2.2 自动化蛋白-配体体系构建

PRISM 的体系构建管线覆盖以下全部自动化步骤:

  1. 1. 结构验证与修复:调用 PDBFixer 修补缺失重原子、不完整侧链、重复的构象互变体;
  2. 2. 质子化状态分配:集成 PROPKA,基于目标 pH 预测每个可滴定残基的质子化状态;
  3. 3. 蛋白拓扑生成:调用 GROMACS pdb2gmx,自动检测本地 GROMACS 安装中可用的蛋白力场;
  4. 4. 体系组装:将配体坐标与蛋白合并,生成带完整交叉引用的联合拓扑;
  5. 5. 溶剂化与中和:支持立方体、截断八面体、十二面体三种周期盒子(默认边距 1.5 nm),以 0.15 M NaCl 中和电荷并设定离子强度。

2.3 标准化模拟配置

PRISM 采用 YAML 配置系统(优先级:CLI 参数 > 用户配置 > 内置默认值),自动生成以下各阶段的 MDP 文件:

  • 能量最小化(steepest descent)
  • NVT 平衡(速度重缩放恒温器)
  • NPT 平衡(C-rescale 恒压器)
  • 生产 MD(默认 500 ns,时间步长 2 fs,PME 静电,1.0 nm 截断,LINCS 约束氢键)

多配体工作流支持并行构建独立体系,输出目录结构化管理。

2.4 增强采样:REST2 自动化设置

针对构象采样不足的问题,PRISM 集成了 REST2(Replica Exchange with Solute Tempering 2)的全自动设置。

温度梯队的几何级数分布

对应的缩放因子 ,几何间距保证相邻副本间近似均匀的交换接受率。

部分调温方案的具体缩放规则:

  • • 溶质 Lennard-Jones 阱深:乘以
  • • 溶质部分电荷:乘以
  • • 键合力常数(溶质内部):乘以
  • • 键合力常数(溶质-溶剂):乘以
  • • 溶剂-溶剂相互作用:保持 不变

PRISM 自动生成每个副本的拓扑文件、共享平衡 MDP 文件,以及完整的 REST2 编排脚本。

2.5 多层级结合自由能计算模块

MM/PBSA 端点自由能

PRISM 提供两套后端(gmx_MMPBSA 和 AMBER MMPBSA.py via ParmEd 拓扑转换)与两种模式:

  • 单帧模式:适用于大规模高通量快速评估
  • 轨迹平均模式:适用于考虑构象熵的精准计算

输出分解为范德华、静电、极性溶剂化、非极性溶剂化四项贡献,便于后续 SAR 分析。

PMF 与自动化拉力方向优化

PMF 模块基于伞形采样计算配体解离自由能曲线,其核心方法贡献是一套基于 Metropolis-Hastings 采样 + 模拟退火的拉力方向自动优化算法。

口袋清除模式的目标函数:将结合口袋定义为配体周围 4.0 Å 内的所有蛋白重原子集合 ,通过最小化沿候选方向的空间位阻:

其中 为蛋白重原子到配体拉力射线的点线距离。

全蛋白碰撞模式通过解析分解平行/垂直分量,将计算复杂度从 降至 ,显著提升优化效率。

MH 采样器采用 Gaussian 扰动( rad),指数冷却调度(,),收敛后将体系旋转至最优方向与 z 轴对齐,并自动生成 SMD 拉伸和伞形采样输入文件,WHAM 重建自由能曲线。

PRISM-FEbuilder:相对结合自由能的一体化构建

FEP 设置的核心挑战在于建立参考态与变换态配体之间的逐原子对应关系,同时处理扰动过程中的静电差异。FEbuilder 的算法分三步:

步骤一:基于距离的原子映射(截断 0.6 Å + 元素类型匹配)

原子被分类为三类:

  • 共同原子(Common):两态共享的骨架原子
  • 变换原子(Transformed):各态特有的原子
  • 环境原子(Surrounding):位置匹配但参数分歧较大的原子

步骤二:电荷分配策略

对共同原子中电荷差异较小的情形,提供三种处理方案:参考态保留、变换态保留、算术平均。对参数分歧显著的原子保留为环境原子,维持态特有特性。

步骤三:单拓扑 GROMACS 格式输出

通过 typeB/chargeB 列编码双态参数,DUM_* 虚拟原子类型处理非相互作用态, 窗口配置软核势,同时生成结合态和非结合态的完整 FEP 输入文件。

2.6 轨迹分析与可视化

基于 MDTraj 构建的分析套件提供:

  • RMSD 与构象聚类
  • 蛋白-配体接触(迟滞定义:进入阈值 3.5 Å,退出阈值 4.0 Å,防止快速切换伪影)
  • 氢键、原子间距离、SASA、二面角分布
  • 时间分辨接触动力学:瞬时接触 vs. 稳定接触的辨识;接触多样性演化;关键相互作用热点的逐残基接触概率
  • 交互式 HTML 可视化:以节点-边图渲染接触网络,边权重编码接触频率,支持悬停查看详情

三、CADD-Agent:专家工作流驱动的 AI 编排层

3.1 架构设计哲学

CADD-Agent 的核心设计在于关注点分离

  • 专家工作流(Expert Workflow):以结构化自然语言协议编码领域知识,包含推荐的库大小、力场组合、参数约束(如禁止修改默认盒子尺寸和离子强度)、对接失败的容错规则、各阶段质量门控标准;
  • 大语言模型(LLM):读取上述协议,作为自适应编排者,将高层研究意图翻译为具体工具调用;
  • MCP 工具服务器:四个独立工具(ChEMBLFind、MolScope、AutoDock Vina、PRISM)通过 MCP 暴露,LLM 通过链式调用传递上下游输出。

3.2 六阶段筛选管线

代码语言:javascript
复制
① 相似性扩展(ChEMBLFind)
    ↓
② 化学空间优化(MolScope)
    ↓
③ 分子对接(AutoDock Vina MCP)
    ↓
④ 模拟体系构建(PRISM)
    ↓
⑤ 自由能评估(MM/PBSA / PMF)
    ↓
⑥ 结果分析与假说生成

每个阶段执行前需用户确认(human-in-the-loop),确保科学严谨性与流程灵活性的平衡。相比静态脚本,该架构提供了自然语言灵活性、错误恢复能力和自适应编排,同时通过协议约束保证了计算规范性。


四、应用案例:核黄素合成酶的端到端层级筛选

4.1 靶标选择的科学依据

核黄素合成酶(Riboflavin Synthase,EC 2.5.1.9,PDB: 1KZL)催化核黄素(维生素 B2)生物合成通路的最后一步——两分子 6,7-二甲基-8-核糖醇基荧光素的歧化反应,生成核黄素和嘧啶二酮。由于该通路在多种细菌中不可或缺,而在哺乳动物中完全缺失,核黄素生物合成酶系是具有内在选择性的抗菌靶点。

结构上,该酶以同源三聚体形式发挥功能:每个 ~23 kDa 单体包含通过连接肽相连的 N 端和 C 端 β-barrel 结构域,催化活性位点专门形成于相邻单体的界面处,C 端 α-螺旋对维持三聚体组装至关重要。

4.2 筛选流程与结果

阶段

方法

规模

数据库检索

ChEMBLFind 查询底物类似物相关活性分子

903 个初始候选

化学空间优化

MolScope 在归一化 MW ⊗ ALogP 描述符空间中 maximin 覆盖优化(覆盖半径 R = 0.0397,最小点间距 = 0.0794)

选取 100 个代表分子

盲对接

AutoDock Vina vs. 1KZL

100 → top 10

MD + MM/PBSA

PRISM 全自动构建(AMBER14SB + GAFF2 + Gaussian HF/6-31G* RESP + PROPKA 质子化)

10 个精评

能量分解分析:10 个候选分子均呈现有利的范德华(ΔE_vdW)和静电(ΔE_elec)贡献,部分被极性去溶剂化惩罚(ΔE_PB)和色散校正(ΔE_disp)抵消。ΔG_total 范围:6.5 ~ 40.8 kcal/mol。

前五名候选(ΔG_total,kcal/mol):

排名

ChEMBL ID

ΔG_total

1

CHEMBL186010

6.5

2

CHEMBL414128

8.3

3

CHEMBL105620

10.5

4

CHEMBL395080

14.2

5

CHEMBL103628

21.8

4.3 两个值得深入讨论的结构发现

发现一:管线可靠性验证

前5名候选分子中,有一个的对接位姿与晶体结构中共结晶配体(6-羧乙基-7-氧-8-核糖醇基荧光素)高度重叠,计算预测与实验结构的一致性验证了整条筛选管线的可靠性。

发现二:潜在变构抑制位点

排名第一的 CHEMBL186010 并未结合于经典活性位点,而是占据了 C 端 α-螺旋底部的口袋——该螺旋对酶的同源三聚化不可或缺。由于核黄素合成酶的活性位点专门形成于亚基界面,配体在此位点的结合可能通过干扰三聚化实现变构抑制。

这一策略(靶向寡聚界面而非催化口袋)在药物设计领域有充分先例:TNF-α 三聚体被 SPD304 破坏、ClpP 蛋白酶寡聚化被 acyldepsipeptide 抗生素调控均为代表性案例。PRISM 的自动化管线自主发现了这一潜在的、抗耐药性的补充抑制策略,展示了 AI 驱动的假说生成能力。


五、PRISM-FEbuilder 基准测试:精度评估

在三个经典蛋白-配体体系上的相对结合自由能计算基准测试:

体系

特点

RMSE (kcal/mol)

HIF-2α

来自标准蛋白-配体基准集

0.90

0.45

T4 溶菌酶 L99A

经典模型体系,深埋疏水空腔,配体化学多样

0.72

0.54

p38α 激酶

来自标准蛋白-配体基准集

0.77

0.70

计算设置:MATCH 力场参数化,CHARMM 兼容设置,显式溶剂结合/非结合态模拟,PME 静电,12.0 Å 非键截断,1.0 fs 时间步长,310 K NPT 平衡。所有扰动循环的环闭合迟滞均较小(内部自洽性良好),大多数扰动的无符号误差在 ±1 kcal/mol 以内,达到行业主流精度水平。


六、与现有工具的关键对比

特性

CHARMM-GUI

OpenMMDL

CHAPERONg

PRISM

配体多力场统一接口

部分

部分

依赖 LigParGen

✓ 完整

GROMACS 原生集成

高精度 RESP 电荷

手动

手动

手动

✓ 自动化

PMF 拉力方向自动优化

FEP 单拓扑自动构建

REST2 自动设置

AI 智能体编排接口(MCP)

高通量批量模式

有限

有限

有限

端到端可复现性

部分


七、局限性与展望

论文对局限性的讨论相当坦诚,值得重视:

方法层面

  • • 默认参数(力场选择、质子化方案、采样时长)未必对所有体系最优,尤其是化学性质特殊、构象异质性强或结合位点不明确的靶点;
  • • 层级筛选策略存在固有的假阴性风险——在早期阶段被排除的分子,在更严格的下游评估中可能表现良好;
  • • MM/PBSA 忽略构象熵贡献,对柔性体系的绝对预测精度有限。

验证层面

  • • 现有案例研究集中于核黄素合成酶单一靶标,跨蛋白家族、跨结合环境、跨配体化学类型的系统性基准测试尚待开展;
  • • FEP 基准测试的 R² 值(0.45 ~ 0.70)表明预测能力仍有提升空间。

未来方向

  • • 扩展到更多靶标类别(膜蛋白、RNA、共价结合等);
  • • 集成机器学习势函数(如 ANI、MACE)以提升构象采样效率;
  • • 建立自动化参数优化机制,降低对专家默认设置的依赖;
  • • 进一步完善 CADD-Agent 的多轮推理与错误恢复能力。

八、总结与推荐理由

PRISM 代表了 CADD 领域一类重要的基础设施工作——不是新算法或新模型,而是将已有优秀工具真正打通的集成平台。其价值在于:

  1. 1. 统一接口消除配体力场碎片化,让研究者聚焦于科学问题而非格式转换;
  2. 2. PMF 拉力方向自动优化是具有独立方法价值的原创贡献;
  3. 3. FEbuilder 的单拓扑自动构建大幅降低了 FEP 设置门槛;
  4. 4. MCP 接口设计使 PRISM 成为真正可被 LLM 智能体调用的计算后端,而非仅仅是"可被脚本调用的工具";
  5. 5. 核黄素合成酶案例不仅验证了管线完整性,还展示了 AI 驱动假说生成的实质性潜力。

对于从事蛋白-配体分子动力学、高通量虚拟筛选、CADD 工作流开发的研究者,PRISM 是一个值得深度评估的开源平台。

代码获取

  • • GitHub:https://github.com/AIB001/PRISM
  • • Zenodo:https://zenodo.org/records/19163575
  • • ChEMBLfind:https://github.com/AIB001/chemblfind
  • • MolScope:https://github.com/AIB001/molscope
  • • AutoDock Vina MCP:https://github.com/AIB001/AutodockVina_MCP
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugIntel 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、背景与动机:一个长期存在的"基础设施缺口"
  • 二、PRISM 平台架构:五层一体化工作流
    • 2.1 多力场统一配体参数化
    • 2.2 自动化蛋白-配体体系构建
    • 2.3 标准化模拟配置
    • 2.4 增强采样:REST2 自动化设置
    • 2.5 多层级结合自由能计算模块
      • MM/PBSA 端点自由能
      • PMF 与自动化拉力方向优化
      • PRISM-FEbuilder:相对结合自由能的一体化构建
    • 2.6 轨迹分析与可视化
  • 三、CADD-Agent:专家工作流驱动的 AI 编排层
    • 3.1 架构设计哲学
    • 3.2 六阶段筛选管线
  • 四、应用案例:核黄素合成酶的端到端层级筛选
    • 4.1 靶标选择的科学依据
    • 4.2 筛选流程与结果
    • 4.3 两个值得深入讨论的结构发现
  • 五、PRISM-FEbuilder 基准测试:精度评估
  • 六、与现有工具的关键对比
  • 七、局限性与展望
  • 八、总结与推荐理由
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档