

原文:Structure-based virtual screening of ultra-large chemical spaces: Advances and pitfalls 作者:François Sindt, Didier Rognan* 单位:法国斯特拉斯堡大学 CNRS 实验室 (UMR7200) 期刊:European Journal of Medicinal Chemistry 305 (2026) 118576 DOI:10.1016/j.ejmech.2026.118576
如果说二十世纪的药物发现是在一个小型图书馆里翻阅书目,那么当前的计算药物化学已进入了一个规模相当于整个互联网的数字宇宙。化学空间的边界正以指数级速度向外扩张——某些私有化合物库已编码超过 个分子,而公开可购买的按需合成空间也已突破万亿()量级。
这不是数量级上的简单叠加,而是药物发现哲学的根本性转变:我们不再受限于"货架上有什么",而是开始思考"化学原理允许什么"。
这篇由斯特拉斯堡大学 Sindt 与 Rognan 联合撰写、2026年发表于《Eur. J. Med. Chem.》的综述,系统梳理了面向超大化学空间的基于结构虚拟筛选(Structure-Based Virtual Screening, SBVS)的四大技术路线,以翔实的前瞻性实验数据为支撑,深入剖析了各方法的技术本质、适用边界与现存陷阱。全文共引用 144 篇文献,覆盖该领域 2019–2025 年的核心进展。
在进入技术细节之前,作者首先明确界定了两个在文献中常被混用的概念,这是理解全文的基础。
指实物在架、可立即购买的分子集合。每个分子均有明确的结构、价格及供货信息,可被完整枚举并以注释形式存储。通常规模不超过 1500 万个分子,代表供应商包括 Enamine、Sigma-Aldrich、Molport 等。
指以构建块(building block)目录编号与有机化学反应序列编码的虚拟分子集合。这些分子尚未被合成,但理论上可通过 2–3 步并行合成实现。化学空间的关键特征是:
表 1:代表性按需化学空间规模
供应商 | 名称 | 规模 | 类型 |
|---|---|---|---|
GSK | GSK-XXL | 私有 | |
Merck | MASSIV | 私有 | |
BioSolveIT | KnowledgeSpace | 虚拟 | |
Enamine | xREAL | 商业 | |
Synple Chem | Synple Space | 商业 | |
Enamine | REAL Space | 商业 | |
WuXi | GalaXi | 商业 | |
NCI | SAVI-Space-2024 | 虚拟 | |
传统化合物库 | (各供应商) | ~ | 实物在架 |

值得注意的是,各化学空间之间的重叠率极低,通常仅 0.2%–2%,这意味着它们彼此独立、互为正交的起点,为苗头发现和早期 SAR 建立提供了大量互补机会。
文章将当前主流方法归纳为四条技术路线(见图 1 示意):
化学空间
│
├─── 穷举式对接 ──────────────→ DOCK3.7/3.8, VirtualFlow, ICM-Pro, AutoDock-GPU
│
├─── 机器学习加速对接
│ ├── 主动学习 ────────→ DeepDocking, MolPAL, RosettaVS, HASTEN
│ └── 被动学习 ────────→ Conformal Prediction, RAD
│
├─── 合成子驱动对接
│ ├── 合成子/骨架对接 → V-SYNTHES, Chemical Space Docking, SpaceDock
│ └── 迭代混合方法 ──→ HIDDEN GEM, SpaceHASTEN
│
└─── 进化算法 ────────────────→ SpaceGA, REvoLd
穷举式对接(Exhaustive Docking)是最直接的超大规模筛选方式:逐一枚举全部待筛分子,将每个分子以标准对接算法放置于靶点结合口袋,输出打分排名。计算规模与化学空间大小呈线性关系,创新主要体现在两方面:一是高性能计算集群的并行化调度;二是对接引擎本身的架构优化(尤其是 GPU 加速)。
2019 年:UCSF 奠基之战
Lyu、Irwin 与 Shoichet(UCSF)在 Nature 上发表了首个超大规模对接研究,确立了该领域的方法论范式:
代表性前瞻应用汇总(DOCK 系列,截至 2025 年):


GPU 在架构上天然适合大规模并行计算,正在成为穷举对接的加速引擎:
作者总结了超大规模穷举对接累积五年来浮现的稳健规律:
规律一:对接打分随库规模增大而提升
无论使用何种对接工具或打分函数,筛选更大的化学空间均可获得更好的对接打分。逻辑上,更大的库包含更多能与蛋白结合口袋完美匹配的分子。
规律二:命中率随库规模增大而提升
以 AmpC β-内酰胺酶为例(同一靶点、两次不同规模筛选的直接对比):
对钙敏感受体(CaSR)的研究显示,大规模筛选(12 亿)命中率是小规模(270 万)的近 3 倍,平均活性强 37 倍。
⚠️ 陷阱提示:化合物数量的增加同样带来了假阳性(artifacts)的增加。这些假阳性化合物通常含有高极性基团,被大多数基于经验力场的打分函数错误地赋予高分,可通过结构过滤和溶剂化能计算加以排除。
规律三:命中率随对接打分提升而增大
传统观点认为对接打分与结合自由能几乎不相关,但超大规模对接揭示了一个微妙的统计规律:打分分布与活性分布在统计层面存在对应关系。以 17 亿化合物的 AmpC 筛选为例,在不同打分区间选取化合物进行测试,命中率随打分提升而清晰递增——这部分挑战了"打分完全无效"的传统论断。
规律四:实验测试规模影响命中率的稳定性
当化学空间扩展至数十亿量级时,潜在命中化合物的数量也将激增(例如 DRD4 在 1.38 亿化合物中的预估活性配体约 45.3 万个)。若仍沿用传统的"购买50–100个化合物测试"策略,命中率将高度依赖随机抽样的运气。作者建议:对成药性好的靶点(GPCRs、激酶)至少选择 150–200 个化合物测试,对难成药靶点应达到 500 个。
规律五:超大规模筛选苗头具有独特生物学特性
这是该领域最令人瞩目的发现之一:超大化学空间筛选发现的苗头化合物,往往展现出传统筛选难以获得的特殊药理学性质:
靶点 | 特殊性质 |
|---|---|
DRD4 全激动剂(EC₅₀ = 180 pM) | 亚型选择性超过 2500 倍 |
MTR1A 选择性激动剂 | 黄昏时给药使小鼠昼夜节律提前 1.5 小时 |
5-HT₂A 激动剂 | 具有抗抑郁特性,无致幻活性,药代动力学异常 |
α₂A 肾上腺素受体激动剂 | 无镇静效应的非阿片类镇痛剂 |
血清素转运体(SC6A4)抑制剂 | 稳定外向-关闭构象,具强效抗抑郁/抗焦虑活性 |
EP4R 拮抗剂 | 外周限制性,强效抗异常疼痛和抗炎 |
CaSR 正变构调节剂 | 降低甲状旁腺素而不诱发低钙血症 |
CLTR2^L129Q^ 逆激动剂 | 为葡萄膜黑色素瘤提供新治疗策略 |
作者坦承,目前尚需更多案例研究来建立"库规模"与"生物学独特性"之间的直接因果关系,但超大库中绝大多数化合物在传统库中不存在(75% 的已验证苗头不可在 4300 万"现货"化合物中购得)这一事实,至少支持了此种关联的合理性。
不同规模穷举对接的计算需求估算
规模 | 化合物数量 | CPU 核时 | 估算耗时 | 存储需求 | 估算费用(USD) | 可行性 |
|---|---|---|---|---|---|---|
小型 | (1000万) | 5,500 | ~5 小时 | ~100 GB | $230 | 高 |
超大型 | (10亿) | 550,000 | ~23 天 | ~10 TB | $23,000 | 可行 |
万亿级 | (1万亿) | 5.5 亿 | ~63 年 | ~10 PB | $2300 万 | 不可行 |
注:基于平均 2 秒/化合物的对接速度,1000 核 CPU 基础设施,标准云计算价格(AWS/Google Cloud)估算
此外,仅分子准备阶段(2D→3D转换、质子化态计算、构象生成)就极为耗时:以 Schrödinger GlideHTVS 处理 15.6 亿分子为例,需要约 30 天计算,消耗约 457,600 核时——约为对接步骤本身的 1/3 至 1/2。
结论:穷举式对接的实际上限约为 10–20 亿分子。
ML 加速对接的基本逻辑是以小博大:仅对 1%–5% 的子集实施实际对接,以此为训练数据,构建 ML 模型预测全库打分,从而将大量计算资源集中于最有前途的候选分子。
从模型输出类型分为:
从学习策略分为:


(1)DeepDocking(DD)
目前应用最广、验证最充分的 ML 加速对接方法之一,由 Cherkasov 课题组(UBC)开发。
(2)RosettaVS
由 DiMaio 课题组(UW)开发,基于 Rosetta 力场的前馈神经网络(FFNN)方法。
(3)Conformal Prediction(CP)
由 Luttens 等(Carlsson 课题组)提出,与标准 ML 不同之处在于可量化每个预测的置信区间。


大量回顾性研究以 AmpC β-内酰胺酶(9900 万,DOCK3.7)和 DRD4(1.38 亿,DOCK3.7)数据集为基准测试,主要结论如下:

方法 | 架构 | AmpC 虚拟苗头回收率 | DRD4 虚拟苗头回收率 | 探索空间比例 |
|---|---|---|---|---|
MolPAL (D-MPNN + UCB) | 图神经网络 | 94.8% | 84.3% | 2.4% |
AutoQSAR/DeepChem (GCNN) | 图卷积网络 | 75% | 96% | 2.2% |
HASTEN (D-MPNN + 贪婪) | 图神经网络 | 90% | 90% | 2% |
GEM-Screen (3D GNN) | 三维图神经网络 | 95% | 99% | 4% |
MEMES (Bayesian GP) | 贝叶斯优化 | 90% | — | 6% |
RAD (HNSW 图) | 近邻检索 | 75% | 74% | 2.4% |
线性回归 (LR) | 线性模型 | 70% | — | 2% |
Thompson Sampling | 概率搜索 | 57%(top100) | — | 1% |
值得注意:线性回归(LR)以几乎最快的训练速度(比非线性模型快约 100 倍)达到 70% 回收率,接近复杂深度学习方法,体现了"复杂度不总是转化为更好效果"的重要提示。
作者对该领域的现状做出了较为犀利的评价,值得重点关注:
问题一:高相关系数不等于高质量预测
大多数 ML 模型以 Pearson 相关系数(Rp)评估,通常在 0.70–0.80 之间,看似可观。但模型往往倾向于学习分数分布的整体趋势而忽视最顶部打分的化合物——而这恰恰是虚拟筛选最关心的。一项研究显示:模型在 150 亿化合物上达到 Rp = 0.83,但仅能优先化 13.5% 的实验活性化合物。
问题二:ML 模型精度上限受原始对接引擎制约
ML 所模拟的对接打分本身对结合自由能的预测精度就有限,因此 ML 对接的性能天花板由其模拟的对接工具决定——好的模型只能尽量逼近对接的结果,而无法超越对接本身的精度。
问题三:前瞻验证案例严重匮乏
迄今仅有 3 种方法(DeepDocking、RosettaVS、Conformal Prediction) 完成了真正的前瞻性实验验证,绝大多数方法仅停留在回顾性基准测试阶段。已验证的前瞻应用中,命中率和苗头活性普遍低于穷举对接(通常命中率 5%–10% vs. 穷举的 10%–40%;最优苗头多为双位数微摩尔 vs. 穷举的纳摩尔至亚微摩尔)。
问题四:万亿级空间使 ML 同样陷入困境
若化学空间达到 ,即使训练集限于 0.1%,也需要对 10 亿化合物进行实际对接——计算成本极为高昂。更根本的是,对万亿化合物进行全库预测推断本身就几乎不可行。
合成子方法从根本上与穷举/ML 方法不同——它不从产品空间出发,而是直接在试剂(reagent)或合成子(synthon)空间操作。其逻辑与按需化学空间的构建逻辑天然契合:化学空间本由试剂+反应定义,那么直接在这一层面探索即可,无需枚举全部产物。
这是目前唯一被证实可处理万亿级化学空间的结构虚拟筛选策略,也是文章作者重点推介的方向。

(1)V-SYNTHES / V-SYNTHES2(Katritch 课题组,USC)
(2)Chemical Space Docking(CSD)(BioSolveIT)
(3)SpaceDock(Sindt & Rognan,斯特拉斯堡,本文作者之一的原创工作)
这也是综述作者自己开发的方法,在文章中有较为详细的描述,具有以下独特性:
(4)HIDDEN GEM(主动学习 + 生成模型 + 相似性搜索)
(5)SpaceHASTEN(ML + 化学空间相似性搜索)
(6)SpaceGA(Moesgaard & Kongsted)
(7)REvoLd(Meiler 课题组,Rosetta 遗传算法)

优势:
局限:
四大技术路线综合比较
维度 | 穷举对接 | ML 加速对接 | 合成子方法 | 进化算法 |
|---|---|---|---|---|
最大可处理规模 | ~10–20 亿 | ~400 亿 | 万亿级 | 万亿级(理论) |
是否需要全库枚举 | 是 | 是(预测阶段) | 否 | 否 |
前瞻验证充分性 | ★★★★★ | ★★☆☆☆ | ★★★★☆ | ★★☆☆☆ |
命中率(已验证) | 10–40% | 5–10% | 7–60% | 待验证 |
最优苗头活性 | 纳摩尔级 | 双位数微摩尔 | 纳摩尔至微摩尔 | 待验证 |
计算成本 | 高 | 中 | 低–中 | 低 |
可购买性保证 | 需后处理 | 需后处理 | 天然内置 | SpaceGA/REvoLd 内置 |
化学多样性 | 高 | 中(取决于采集策略) | 高 | 偏低(SpaceGA) |
工业化成熟度 | 高 | 中 | 高(CSD、V-SYNTHES 已商业化) | 低 |
挑战一:假阳性随库规模增大而增多
高打分列表中假阳性分子的比例随库规模扩大而上升,通常具有扭曲构象或被经验打分函数优化的极性基团。解决方案包括:人工视觉检查(移除扭曲分子)、配体应变能过滤、溶剂化能计算(MM-GBSA 等)。
挑战二:对接打分仍然是糟糕的结合自由能代理
这是整个基于结构虚拟筛选领域的本质瓶颈,不因库规模变化而消失。提升后处理重打分的精度(包括物理化学方法和 AI 方法如 Boltz-2)是一个重要的改进方向。
挑战三:靶点结构输入的质量与来源
目前几乎所有案例均依赖高分辨率实验结构(X 射线、冷冻电镜)。AlphaFold 等 AI 预测结构是否可替代实验结构用于超大规模筛选?现有唯一报道显示,冷冻电镜和 AlphaFold2 结构可发现不重叠的配体集合、命中率相近,初步支持 AI 结构的适用性,但系统研究仍缺乏。
挑战四:核酸靶点的扩展
目前所有应用均聚焦于蛋白靶点。核酸(DNA/RNA)结合位点的独特性(更大、更具柔性、水介导相互作用更多)使得直接将现有方法迁移存在相当挑战,需要专门开发和验证。
近期(1–3 年内):
中远期(3–5 年):
这篇综述的学术价值体现在三个层面:
第一,系统性与批判性的统一。 文章不是简单的文献堆砌,而是在系统梳理四大方法体系的基础上,对每条路线的本质局限做出清晰而诚实的评价——尤其是对 ML 加速对接前瞻验证不足问题的直接点名,体现了作者超越了自身领域的客观视角。
第二,数据驱动,论据充分。 文章依托超过 20 个具有实验验证的前瞻筛选案例,以及数十个回顾性基准研究,为每一个方法论结论提供了坚实的数据基础,而非依赖理论推演。
第三,作者本身即领域核心贡献者。 Sindt 与 Rognan 不仅是综述者,SpaceDock 即为 Sindt 的原创工作,他们在 CHI3L1、DRD3 等靶点上的前瞻应用也列于文中。这意味着文章具有相当程度的一手经验与内部视角。
对于计算药物化学研究者而言,这篇综述提供了清晰的方法选择路线图;对于实验药化学家,它揭示了超大化学空间如何从根本上改变了苗头发现的逻辑;对于药物发现决策者,它量化了不同规模筛选的成本-效益边界。