

论文信息:PRISM: A High-Throughput Simulation Infrastructure for CADD Agents 作者:Zhaoqi Shi†, Xufan Gao†, Mingyu Xu†, Xuanyi Zhu, Peng Wang, Yuxuan Yang, Zaixing Yang, Ruhong Zhou* 机构:浙江大学;哥伦比亚大学 预印本:bioRxiv, doi: 10.64898/2026.04.02.716083(2026年4月6日) 开源地址:https://github.com/AIB001/PRISM 教程:http://www.prism-tutorial.com
计算机辅助药物设计(Computer-Aided Drug Design, CADD)近年来借助人工智能获得了显著加速,但在实际落地中,一个长期被忽视的矛盾日益凸显:AI 模型的推理能力远超其所能调用的计算基础设施的整合程度。
具体而言,蛋白-配体模拟工作流长期呈碎片化状态:
现有平台各有局限:CHARMM-GUI 的交互式提交模式不适合高通量批量任务;OpenMMDL 深度绑定 OpenMM 生态;CHAPERONg 的配体参数生成仍依赖外部服务 LigParGen,尚未形成完整闭环。
更关键的是,随着 LLM 驱动的科学 AI 智能体(如 ChemLint、Biomni)的兴起,"智能体能编排多步计算任务"的前提,是存在一套可被程序化调用、具备良好抽象界面的计算后端。然而,这恰恰是当前 CADD 工具链最薄弱的环节。
浙江大学团队的 PRISM(Protein-Receptor Interaction Simulation Modeler)正是为填补这一缺口而设计的。
PRISM 以 GROMACS 为计算核心,构建了覆盖从原始输入到分析输出的五层流水线,所有模块共享统一的数据格式规范(GRO 坐标 + ITP 拓扑 + 力场文件 + 位置约束文件),确保各阶段无缝衔接。
输入验证 → 蛋白预处理 → 多路径配体参数化 → 模拟执行 → 轨迹后分析
这是 PRISM 区别于现有工具最核心的技术贡献之一。用户通过单一命令行参数即可切换以下参数化路径:
力场 | 实现路径 | 电荷方法 |
|---|---|---|
GAFF / GAFF2 | AmberTools (Antechamber + tleap + ACPYPE) | AM1-BCC(默认) |
OpenFF (SMIRNOFF) | OpenFF Toolkit + Interchange | SMIRNOFF 直接感知 |
CGenFF | 解析预生成的 stream 文件 | CHARMM 内置 |
OPLS-AA | LigParGen 服务器 | CM1A-LBCC |
MMFF / MATCH / 混合 | SwissParam 网络服务 | 对应方法内置 |
可选高精度电荷模块:PRISM 集成了基于 Gaussian 的 RESP(Restrained Electrostatic Potential)电荷计算模块,支持 HF/6-31G* 和 B3LYP/6-31G* 两种理论级别的静电势计算,生成的 RESP 拟合电荷可无缝替换 AM1-BCC,适用于对电荷精度要求较高的生产级计算任务。
无论选择哪条参数化路径,所有输出均遵循同一格式规范,下游模块行为完全一致——这正是"统一接口"设计哲学的核心价值。
PRISM 的体系构建管线覆盖以下全部自动化步骤:
pdb2gmx,自动检测本地 GROMACS 安装中可用的蛋白力场;PRISM 采用 YAML 配置系统(优先级:CLI 参数 > 用户配置 > 内置默认值),自动生成以下各阶段的 MDP 文件:
多配体工作流支持并行构建独立体系,输出目录结构化管理。
针对构象采样不足的问题,PRISM 集成了 REST2(Replica Exchange with Solute Tempering 2)的全自动设置。
温度梯队的几何级数分布:
对应的缩放因子 ,几何间距保证相邻副本间近似均匀的交换接受率。
部分调温方案的具体缩放规则:
PRISM 自动生成每个副本的拓扑文件、共享平衡 MDP 文件,以及完整的 REST2 编排脚本。
PRISM 提供两套后端(gmx_MMPBSA 和 AMBER MMPBSA.py via ParmEd 拓扑转换)与两种模式:
输出分解为范德华、静电、极性溶剂化、非极性溶剂化四项贡献,便于后续 SAR 分析。
PMF 模块基于伞形采样计算配体解离自由能曲线,其核心方法贡献是一套基于 Metropolis-Hastings 采样 + 模拟退火的拉力方向自动优化算法。

口袋清除模式的目标函数:将结合口袋定义为配体周围 4.0 Å 内的所有蛋白重原子集合 ,通过最小化沿候选方向的空间位阻:
其中 为蛋白重原子到配体拉力射线的点线距离。
全蛋白碰撞模式通过解析分解平行/垂直分量,将计算复杂度从 降至 ,显著提升优化效率。
MH 采样器采用 Gaussian 扰动( rad),指数冷却调度(,),收敛后将体系旋转至最优方向与 z 轴对齐,并自动生成 SMD 拉伸和伞形采样输入文件,WHAM 重建自由能曲线。
FEP 设置的核心挑战在于建立参考态与变换态配体之间的逐原子对应关系,同时处理扰动过程中的静电差异。FEbuilder 的算法分三步:

步骤一:基于距离的原子映射(截断 0.6 Å + 元素类型匹配)
原子被分类为三类:
步骤二:电荷分配策略
对共同原子中电荷差异较小的情形,提供三种处理方案:参考态保留、变换态保留、算术平均。对参数分歧显著的原子保留为环境原子,维持态特有特性。
步骤三:单拓扑 GROMACS 格式输出
通过 typeB/chargeB 列编码双态参数,DUM_* 虚拟原子类型处理非相互作用态, 窗口配置软核势,同时生成结合态和非结合态的完整 FEP 输入文件。
基于 MDTraj 构建的分析套件提供:
CADD-Agent 的核心设计在于关注点分离:
① 相似性扩展(ChEMBLFind)
↓
② 化学空间优化(MolScope)
↓
③ 分子对接(AutoDock Vina MCP)
↓
④ 模拟体系构建(PRISM)
↓
⑤ 自由能评估(MM/PBSA / PMF)
↓
⑥ 结果分析与假说生成
每个阶段执行前需用户确认(human-in-the-loop),确保科学严谨性与流程灵活性的平衡。相比静态脚本,该架构提供了自然语言灵活性、错误恢复能力和自适应编排,同时通过协议约束保证了计算规范性。
核黄素合成酶(Riboflavin Synthase,EC 2.5.1.9,PDB: 1KZL)催化核黄素(维生素 B2)生物合成通路的最后一步——两分子 6,7-二甲基-8-核糖醇基荧光素的歧化反应,生成核黄素和嘧啶二酮。由于该通路在多种细菌中不可或缺,而在哺乳动物中完全缺失,核黄素生物合成酶系是具有内在选择性的抗菌靶点。
结构上,该酶以同源三聚体形式发挥功能:每个 ~23 kDa 单体包含通过连接肽相连的 N 端和 C 端 β-barrel 结构域,催化活性位点专门形成于相邻单体的界面处,C 端 α-螺旋对维持三聚体组装至关重要。
阶段 | 方法 | 规模 |
|---|---|---|
数据库检索 | ChEMBLFind 查询底物类似物相关活性分子 | 903 个初始候选 |
化学空间优化 | MolScope 在归一化 MW ⊗ ALogP 描述符空间中 maximin 覆盖优化(覆盖半径 R = 0.0397,最小点间距 = 0.0794) | 选取 100 个代表分子 |
盲对接 | AutoDock Vina vs. 1KZL | 100 → top 10 |
MD + MM/PBSA | PRISM 全自动构建(AMBER14SB + GAFF2 + Gaussian HF/6-31G* RESP + PROPKA 质子化) | 10 个精评 |


能量分解分析:10 个候选分子均呈现有利的范德华(ΔE_vdW)和静电(ΔE_elec)贡献,部分被极性去溶剂化惩罚(ΔE_PB)和色散校正(ΔE_disp)抵消。ΔG_total 范围:6.5 ~ 40.8 kcal/mol。
前五名候选(ΔG_total,kcal/mol):
排名 | ChEMBL ID | ΔG_total |
|---|---|---|
1 | CHEMBL186010 | 6.5 |
2 | CHEMBL414128 | 8.3 |
3 | CHEMBL105620 | 10.5 |
4 | CHEMBL395080 | 14.2 |
5 | CHEMBL103628 | 21.8 |
发现一:管线可靠性验证
前5名候选分子中,有一个的对接位姿与晶体结构中共结晶配体(6-羧乙基-7-氧-8-核糖醇基荧光素)高度重叠,计算预测与实验结构的一致性验证了整条筛选管线的可靠性。
发现二:潜在变构抑制位点
排名第一的 CHEMBL186010 并未结合于经典活性位点,而是占据了 C 端 α-螺旋底部的口袋——该螺旋对酶的同源三聚化不可或缺。由于核黄素合成酶的活性位点专门形成于亚基界面,配体在此位点的结合可能通过干扰三聚化实现变构抑制。
这一策略(靶向寡聚界面而非催化口袋)在药物设计领域有充分先例:TNF-α 三聚体被 SPD304 破坏、ClpP 蛋白酶寡聚化被 acyldepsipeptide 抗生素调控均为代表性案例。PRISM 的自动化管线自主发现了这一潜在的、抗耐药性的补充抑制策略,展示了 AI 驱动的假说生成能力。
在三个经典蛋白-配体体系上的相对结合自由能计算基准测试:
体系 | 特点 | RMSE (kcal/mol) | R² |
|---|---|---|---|
HIF-2α | 来自标准蛋白-配体基准集 | 0.90 | 0.45 |
T4 溶菌酶 L99A | 经典模型体系,深埋疏水空腔,配体化学多样 | 0.72 | 0.54 |
p38α 激酶 | 来自标准蛋白-配体基准集 | 0.77 | 0.70 |

计算设置:MATCH 力场参数化,CHARMM 兼容设置,显式溶剂结合/非结合态模拟,PME 静电,12.0 Å 非键截断,1.0 fs 时间步长,310 K NPT 平衡。所有扰动循环的环闭合迟滞均较小(内部自洽性良好),大多数扰动的无符号误差在 ±1 kcal/mol 以内,达到行业主流精度水平。
特性 | CHARMM-GUI | OpenMMDL | CHAPERONg | PRISM |
|---|---|---|---|---|
配体多力场统一接口 | 部分 | 部分 | 依赖 LigParGen | ✓ 完整 |
GROMACS 原生集成 | ✓ | ✗ | ✓ | ✓ |
高精度 RESP 电荷 | 手动 | 手动 | 手动 | ✓ 自动化 |
PMF 拉力方向自动优化 | ✗ | ✗ | ✗ | ✓ |
FEP 单拓扑自动构建 | ✗ | ✗ | ✗ | ✓ |
REST2 自动设置 | ✗ | ✗ | ✓ | ✓ |
AI 智能体编排接口(MCP) | ✗ | ✗ | ✗ | ✓ |
高通量批量模式 | 有限 | 有限 | 有限 | ✓ |
端到端可复现性 | 部分 | ✓ | ✓ | ✓ |
论文对局限性的讨论相当坦诚,值得重视:
方法层面
验证层面
未来方向
PRISM 代表了 CADD 领域一类重要的基础设施工作——不是新算法或新模型,而是将已有优秀工具真正打通的集成平台。其价值在于:
对于从事蛋白-配体分子动力学、高通量虚拟筛选、CADD 工作流开发的研究者,PRISM 是一个值得深度评估的开源平台。
代码获取