

原文标题:GalaxyVS: Exploring 100‑Billion Compounds in Seconds 来源:bioRxiv 预印本,2026‑06‑03(未经同行评审) DOI:
10.64898/2026.05.29.728912项目主页/数据库:https://galaxyvs.drugclip.com 作者机构:清华大学智能产业研究院(AIR)· 国家超级计算天津中心 · 国防科技大学计算机学院 · 清华大学计算机系
GalaxyVS 是一套软硬件协同设计的虚拟筛选框架,部署于国家超级计算天津中心。它以 DrugCLIP 的「稠密向量检索」范式为内核,绕开经典分子对接的几何计算与结构依赖,将单靶点对千亿化合物库的筛选从「数年模拟」压缩到「数秒检索」,并首次在十万级靶点 × 千亿级化合物的规模上完成系统化筛选,产出跨物种相互作用数据库 GalaxyDB。
现代药物发现正同时面对靶点空间与化学空间的快速膨胀,但现有筛选能力远未跟上这两条曲线。
靶点侧的鸿沟。 AlphaFold2 已为约 1.58 亿个蛋白预测了结构,覆盖 UniProt 中约 2 亿条目的 78%;然而,依赖高分辨率实验结构的传统方法,其搜索空间被限制在 PDB 中约 7 万个蛋白——这仅占已知靶点的约 0.035%。换句话说,绝大多数(包括许多高治疗价值的)靶点,至今仍是「可结构化但未被筛选」的空白地带。
化学侧的鸿沟。 组合化学的发展,使商业可及的化合物库扩张到了数十亿乃至万亿规模(如 Enamine REAL Space、WuXi GalaXi、ZINC22 等)。可受限于算力,单次筛选的天花板长期停留在约 55 亿 化合物的量级,千亿级空间几乎无人触及。
经典方法为何吃力。 物理模拟(如自由能微扰 FEP)精度最高但代价过大,难以放大到千亿尺度;分子对接(docking)相对经济,却仍需对每个蛋白-配体对反复采样和打分,面对千亿候选时同样力不从心。
深度学习带来的转机。 以 DrugCLIP 为代表的方法,把虚拟筛选重构成共享隐空间中的最大内积检索,在效率上对物理模拟形成代差;同时,大规模合成数据上的预训练让模型对结构变得鲁棒,从而可以直接使用 AlphaFold2 预测结构进行筛选(湿实验已在缺乏实验结构的靶点 TRIP12 上验证了这一能力)。基于此,此前已有工作把人类蛋白质组对 5 亿化合物完成筛选并公开数据集。
从 5 亿到 1000 亿,要跨过三道坎。 规模扩大 200 倍绝非简单「堆量」,论文明确指出三层挑战:
GalaxyVS 正是为同时解决这三层挑战而设计。

GalaxyVS 的理论地基是 DrugCLIP——一个多模态对比学习框架,它打破了筛选「吞吐」与「精度」之间的传统取舍。
DrugCLIP 使用两个独立的、基于 Uni-Mol 的 Transformer 编码器,分别处理小分子与蛋白口袋的 3D 原子特征。其中分子编码器加载了预训练的 Uni-Mol 权重,口袋编码器则在 ProFSA 数据集上通过对比蒸馏与之对齐。两者通过对比学习,把匹配的蛋白-配体对在表征空间中拉近、把不匹配对推远,采用对称的 batch softmax 损失:
即「给定口袋检索正确配体」与「给定配体检索正确口袋」两项之和,相似度采用余弦相似度。
关键在于双编码器是完全解耦的:分子编码与蛋白完全独立。这意味着可以把整个化合物库离线一次性编码并落盘,每次新的筛选只需在线编码目标口袋,再计算它与全部预计算分子向量的余弦相似度即可排序。于是,几何依赖的亲和力估计被改写为高效的向量内积运算——这正是把「在线检索」从「离线准备」中剥离出来的结构性前提。
为增强对构象变化的鲁棒性,每个分子的最终向量由6 个交叉验证模型集成得到。多口袋构象下的原始余弦分数则采用调整后的鲁棒 Z-score 归一化以保证可比性:
每个分子的最终分数取其在所有相关口袋上归一化分数的最大值。
GalaxyVS 并非现有工具的简单拼接,而是自底层硬件到顶层候选精炼的系统性重构,由三个相互衔接的模块组成(对应论文 Figure 2)。

流程。 两个库均以 SMILES 提供,先用 RDKit 为每个分子生成低能量 3D 构象,再送入 DrugCLIP 分子编码器抽取静态向量。落盘后的向量库规模约 200 TB。
硬件适配(YH-Torch)。 团队把 DrugCLIP 工作流从 CUDA 迁移到天河超算的异构加速器上:将计算核重写为设备相关算子,并通过统一算子接口注册,从而在保持 PyTorch 编程模型的同时实现透明分派。针对 Transformer,他们实现了融合多头注意力算子,把线性投影、矩阵乘、softmax 与 dropout 合并为单个 kernel,减少启动开销、提升片上数据复用。
调度与容错。 设计了节点感知的任务分配策略与失败重提机制,以在长时间编码作业中维持吞吐稳定。
离线成本(一次性沉没成本)。 构建这套千亿库消耗了 1000 个 CPU 节点 × 12 天 + 5000 个异构加速器节点 × 18 天。这正是 GalaxyVS 吞吐飞跃的关键——把构象生成、向量编码等重活全部前置为离线一次性投入,在线检索则近乎瞬时。
平台一致性验证。 为确认加速器与原始 GPU(NVIDIA A100 80GB)数值一致,团队抽样 100 万分子双平台编码:逐元素差异在小数点后第 4–5 位,均值 6.86×10⁻⁵、最大 5.75×10⁻³;在 744 个构象、53 个口袋组上的排序一致性(Spearman)达到 5–6 位有效数字,Top 1% 差异仅数十个分子,处于实践可接受范围。
磁盘原生索引(PipeANN)。 为避免数百 TB 的内存常驻,团队引入 PipeANN——其索引结构与 DiskANN 相同:向量组织为有向图(节点即向量,边即近邻),图索引存盘以大幅压低内存占用,仅把 PQ 压缩向量驻留内存以加速访问。索引遍历采用「偏置最优优先搜索」,反复发起 4KB 随机读直至收敛。
I/O 工程细节。 索引文件存放在基于 HDD 的 Lustre 并行文件系统上;为掩盖随机读的高延迟,PipeANN 用最大 I/O 深度 32 的自适应流水线重叠计算与磁盘 I/O,并利用多盘并行。这套磁盘原生方案,构成了下文「亲民模式」的基础。
关键配置。 每个分区约 100 万向量(共约 10 万个分区);多数分区图最大出度 R=64,连通性弱的「困难分区」提升至 128;构建时候选池 L 默认 100、大 R 时 192,检索时 L=5×top-K;每个 PQ 压缩向量 32 字节,内存-磁盘比 1:128(全集群 <10 TB 内存)。
两种运行模式(对应 Figure 3)。

模式 | 硬件 | 任务 | 性能 | 成本 |
|---|---|---|---|---|
Accessible(亲民) | 20 个标准节点 / 磁盘检索 | 单靶点 | 5.2 小时 | ≈ ¥300 / 靶点 |
Extreme(狂飙) | 20,071 个节点 / 内存检索 | 全蛋白质组 | 160 口袋 32 秒;日吞吐 1.5×10¹⁶ | 大规模算力(图示约 ¥85 万级) |
「狂飙模式」把磁盘检索升级为分布式内存检索:将分片预加载进各节点本地内存,使检索摆脱共享存储 I/O 瓶颈。其呈现出明显的亚线性扩展——当并发查询冲到百万级时,单口袋有效延迟低至约 0.014 秒。
检索得到的原始候选先经鲁棒 Z-score 归一化,随后进入「两阶段精炼」以同时保证化学多样性与排序精度。
(a) 结构感知的分区。 在建索引前,用 K-Means + ECFP4 指纹把全库聚成约 1 万个结构家族;因簇大小极不均衡,再均匀细分为约 10 万个大小相近的结构内聚分片(每片约 4–40 百万分子)。
(b) 多样性因子。 检索 Top 0.01% 后约得 1000 万分子。直接取全局 Top 会导致扎堆,故采用两阶段选择:先从每个分区独立取 Top 比例 r,再从并集中选最终 top-k。随 r 增大,最终被代表的簇数 l 单调上升至 min(k, 10000)。给定目标 k 与期望 l,用二分搜索高效确定最优 r——只需对 1000 万级集合做一次全局排序,分钟级即可完成。
(c) 性质与规则过滤。 全库不预过滤(保留灵活性),而是对每个检索子集按需过滤。单靶点 ABFE 评估采用较宽松规则(节选):
性质 | 取值范围 | 性质 | 取值范围 |
|---|---|---|---|
分子量 | [150, 550] | TPSA | [0, 200] |
环数 | [1, 7] | 可旋转键 | [0, 12] |
H 键供体 | [0, 6] | 芳香环数 | [1, 7] |
H 键受体 | [0, 12] | 最大环尺寸 | [3, 8] |
ClogP | [−3, 5] | 异构体数 | [1, 8] |
并排除 PAINS、ZINC 警示结构及多醚酯、双胍、硝基等模式;允许原子类型限定为 {H, C, N, O, F, Cl, Br, I, S, P}。
(d) AlphaRank 重排序。 多样化候选随后由 AlphaRank(构建于 AlphaFold3 骨架,以成对排序损失优化)做精细亲和力重排序。与检索阶段粗粒度的语义向量不同,AlphaRank 显式建模口袋-配体的 3D 原子级相互作用与空间构象,把「数学上的近邻」精炼为「生化上严谨的候选」。
亲民模式以 20 节点、5.2 小时、约 ¥300 完成单靶点千亿筛选;狂飙模式在 20,071 节点上 32 秒完成 160 口袋批量检索,满负荷日吞吐达 1.5×10¹⁶ 次打分——相对此前 docking 类超算纪录(SWDOCKP2)提升约 百万倍。其本质是范式转变:把重活前置为离线沉没成本,在线只剩近乎瞬时的向量运算,从而实现亚线性扩展。
⚠️ 解读提示:这里的「百万倍」比较的是吞吐(scores/day),而 deep-learning 检索的一次「打分」与 docking 的一次「打分」在计算内涵上并不等价。这是一项范式层面的效率跃迁,而非同口径的逐步加速——阅读时宜把握其量级意义。
在 102 个 DUD-E 靶点上,与一个聚合自 ChemDiv、ChemBridge、Enamine、Life Chemicals 的代表性「在库」基线(过滤后 2.94M)对比:基线取每靶 Top 30,000(约 1%);千亿库取 Top 0.01% 后经多样性控制保留 30,000 个、覆盖约 8,000 个簇。

评估采用 Leader–Follower 聚类(ECFP 1024-bit,阈值 0.85)、Bemis–Murcko 骨架、Morgan 半径-4 原子环境、BRICS 片段四类指标。结果显示,GalaxyVS 命中分子在独特簇、独特骨架、独特原子环境、独特片段上均显著高于百万级库,有效缓解了常规流程中的结构冗余。
针对 42 个在两种库中均存在新颖性挑战的靶点,基于 PubChem 把命中分子分为四级新颖度:高(未收录且 <5 类似物)、中(已收录且 <5,或未收录且 ≥5)、低(已收录且 ≥5)、最低(专利覆盖);类似物按 PubChem 指纹、相似度阈值 0.9 定义。

对比鲜明:传统在库筛选产出大量「低/最低新颖度」分子,集中在拥挤且可能受专利约束的区域;而 GalaxyVS 即便面对最难靶点,命中也主要落在中等新颖度区间——更可能是尚未报道、仅与已知分子部分子结构相似的全新结构。
Boltz-2 打分。 对每靶用簇代表选取至多 60 个化合物(控制冗余、模拟真实实验预算)。千亿库的 Boltz-2 分数分布明显向更强亲和力偏移,整体胜率 80.4%。分蛋白家族看:

蛋白类别 | 胜率 | 样本数 | 蛋白类别 | 胜率 | 样本数 |
|---|---|---|---|---|---|
离子通道 | 100.0% | 2 | 其他酶 | 83.3% | 36 |
P450 | 100.0% | 2 | 激酶 | 76.9% | 26 |
蛋白酶 | 93.3% | 15 | 核受体 | 72.7% | 11 |
杂项 | 80.0% | 5 | GPCR | 40.0% | 5 |
酶类与核受体普遍 >70%;GPCR 仅 40% 是唯一明显偏低项——这与 GPCR 高度构象柔性、静态打分函数难以区分真实结合者与背景噪声的已知难点一致(且 n=5 样本偏小)。
ABFEP 自由能验证。 以 BRD4(PDB 5UF0 等 5 个晶体结构)为靶,用 BAT.py 对 Top 10 分子做绝对结合自由能微扰:平均 ΔG = −6.25 kcal/mol、标准差 1.57,平均统计误差 1.12,收敛良好。其中 GVS-001 ΔG = −8.97 ± 0.89、GVS-002 ΔG = −8.03 ± 0.85 kcal/mol;二者采取经典结合模式,与 ASP381、关键锚定残基 ASN433 及保守水分子形成稳定相互作用网络。

与 docking 选择的对比(Table 6)。 按 docking 分数选的候选能找到更低的表观能量极小(如 Compound 16 ΔG = −10.97),但波动更大——Compounds 11、13 出现弱结合(ΔG ≥ −3.00)且标准差高达 2.98,提示在显式溶剂中结构不稳、部分脱离口袋。相比之下,GalaxyVS 更倾向热力学一致、收敛良好的分子。
凭借高吞吐与对 AlphaFold 结构的适配,团队把筛选从单靶点扩展到整个蛋白质组,选取 6 个跨演化分支的代表性物种,结构数据取自 AlphaFold 数据库:
物种 | 类型 | 结构数 |
|---|---|---|
人类(Homo sapiens) | 哺乳动物 | 23,586 |
小鼠(Mus musculus) | 哺乳动物 | 21,452 |
拟南芥(Arabidopsis thaliana) | 植物 | 27,402 |
果蝇(Drosophila melanogaster) | 昆虫 | 13,461 |
酿酒酵母(S. cerevisiae) | 真菌 | 6,055 |
大肠杆菌(E. coli) | 原核 | 4,370 |
合计 | 96,326 |
筛选规模。 经口袋识别与结构过滤后,筛选空间约 400 万个结合构象、来自约 10 万个蛋白靶点。整场战役在 20,071 节点上 16 小时内完成,累计 4.0×10¹⁷ 次口袋-配体打分,单口袋有效延迟约 0.01 秒。
GalaxyDB 构建。 经 elbow 分析在 102 DUD-E 靶点上确定目标多样性约 7,000 簇;每个百万级富集子集在 z-score < −4 约束下保留 30,000 分子并最大化簇覆盖,再以 Leader–Follower(ECFP4 1024-bit、Tanimoto 0.8)聚类取代表。随后用 AutoDock Vina v1.2.5 做集成对接(Open Babel 生成构象、Meeko 处理结构):仅人类数据集即覆盖 26,562 个口袋、187,715 个口袋构象,每个口袋约 200 个候选配体、exhaustiveness=16,保留最优 pose 用于建库。
这份跨物种相互作用全景图将开放释出,可支撑人类疾病治疗、抗菌发现、农药/除草剂开发等多个方向。
两大库(合计 94.00B,约「1000 亿级」):
与既有大规模筛选平台的对比:

基准。 DUD-E(102 靶,平均 224 活性 + 约 62 倍诱饵)评估跨家族富集;LIT-PCBA(14 靶、7,761 活性、382,674 实测非活性)以实验数据替代诱饵,更贴近真实但活性比例差异大。富集因子定义为:
由于全库穷举排序不可行,论文采用近似策略:把已知活性按到簇心的距离归入对应分区,再插入排序列表计算 EFₖ%。
随着 AlphaFold 结构覆盖与可及化学库继续扩张,「检索式」筛选有望成为常态化的一线工具。后续若能补上系统性湿实验验证、并将 GalaxyDB 与下游优化、ADMET、可成药性评估打通,其对真实管线的价值将更为可观。