
DRUGONE
在计算机辅助药物发现中,生成具有真实可合成路径的新型类药分子是一个关键目标。然而,当前的生成模型往往缺乏对化学合成过程的认知,导致生成的分子难以甚至无法在实验中实现。为解决这一问题,分子设计不仅需要优化分子性质,还必须同时考虑合成可行性,而这一指标只有在纳入具体反应类型和起始原料等因素时才具有实际意义。此外,仅生成彼此独立的单个分子会显著增加多分子合成的成本与复杂度。
在实际药物化学流程中,研究人员通常会将候选分子组织为共享合成策略和中间体的分子家族,从而实现并行合成与自动化操作。基于这一现实需求,研究人员提出了 SynthSense,一种基于强化学习的分子设计框架,通过引入逆合成反馈来指导生成过程。
SynthSense 包含两类奖励机制:一类是针对单个分子的外在奖励,用于评估其合成可行性,例如是否符合可用原料和偏好反应;另一类是针对分子集合的内在奖励,用于强化不同分子之间的合成路径一致性。计算实验表明,与传统不考虑合成性的生成方法相比,该方法在多个指标上表现显著提升,包括可合成分子的数量、符合指定合成路径的命中率,以及并行合成板的填充效率。
这些结果表明,将“可合成性”从约束条件转变为主动优化目标,可以使生成式人工智能更贴近现代药物化学实践,从而加速结构–活性关系探索,并更自然地融入自动化合成流程。

新药分子的发现是制药创新的核心任务,但化学空间的规模极其庞大,使得穷举式实验探索几乎不可能。近年来,深度生成模型成为探索这一空间的重要工具,使得研究人员能够从头设计具有特定性质的分子。
尽管这些模型在生成结构有效性、多样性和性质优化方面表现出色,但许多计算上“理想”的分子在现实中却难以合成。这种设计与实验之间的鸿沟,成为限制生成模型实际应用的关键问题。
早期研究通过合成可及性评分等启发式方法来估计分子的合成难度,但这些方法依赖历史数据,无法反映化学合成的动态性和上下文依赖性。随后,计算机辅助合成规划工具的发展,使得基于逆合成路径的评估成为可能。
尽管如此,大多数方法仍然只关注单个分子的可合成性,而忽略了实际化学工作流程中更重要的一点——分子通常是以“系列”形式被设计和合成的。不同研究团队往往偏好特定反应类型,并积累相应经验,这使得某些合成路径在效率和成本上更具优势。
此外,在自动化合成平台中,大量反应是以板式并行方式进行的。因此,分子之间是否共享合成路径(即“路径一致性”)成为决定实验可行性的重要因素。
基于这些观察,研究人员认为,分子生成应从单分子优化转向“分子家族设计”,即生成具有一致合成策略的一组分子。这一转变构成了本文方法的核心思想。
方法
SynthSense 通过将逆合成分析嵌入强化学习过程,引导分子生成在“合成空间”中进行探索。该方法建立在现有生成模型之上,无需修改模型结构即可引入合成约束。
该框架包含四种奖励函数:两种外在奖励用于单分子层面的可合成性评估,两种内在奖励用于批次层面的策略优化。

图1:SynthSense总体框架。
可合成性导向(SFScore)
SFScore 用于评估一个分子是否容易通过实际合成获得。它综合考虑三个因素:起始原料的可获得性、反应类型的偏好程度以及合成步骤数量。
与传统评分方法不同,该方法允许研究人员根据具体项目需求灵活设定反应类型和原料来源,从而更真实地反映实验环境中的限制。
这一机制使生成模型能够主动倾向于那些更容易实现的分子结构,而不仅仅是理论上可行的分子。
目标合成路径导向(RRScore)
RRScore 用于引导生成分子向某一预定义合成路径靠近。其核心思想是比较生成分子的合成路径与参考路径之间的相似性。
这种相似性通过“树结构编辑距离”来衡量,即计算将一个合成路径转化为另一个所需的最小操作数。距离越小,说明路径越相似。
相比于传统的“先生成再筛选”,该方法可以在生成过程中同时优化分子性质和合成路径,实现真正的多目标优化。

图2:合成路径编辑距离示意图。
合成路径流行度(Route Popularity)
该奖励函数关注的是一个批次中分子是否共享相同的合成策略。通过统计不同分子所采用的反应组合,可以识别出“常见合成路径”。
模型会倾向于生成使用这些高频路径的分子,从而提高整体合成效率,并促进策略一致性。

图3:路径流行度与批次分析流程。
并行合成板填充(Fill-a-Plate)
Fill-a-Plate 在 Route Popularity 的基础上进一步引入动态调控机制。它不仅奖励常见路径,还会在某一路径“饱和”后,推动模型探索新的合成路径。
这一策略模拟了真实实验中“填满一个反应板后切换策略”的过程,使模型在利用已有路径和探索新路径之间取得平衡。
实验设置
研究人员将上述奖励函数与药物设计指标(如药物相似性和三维结构相似性)结合,构建多目标优化任务。所有模型均在统一条件下训练,并与不使用 SynthSense 的对照组进行比较。
结果
提升可合成分子生成能力
引入 SFScore 后,模型生成的可合成分子数量显著增加,并在整个训练过程中保持稳定增长。
不仅如此,生成分子的结构多样性也明显提升,说明模型能够在可合成空间中进行更有效的探索。
精准对齐目标合成路径
RRScore 能够显著降低生成路径与目标路径之间的差异,使模型逐渐收敛到指定合成策略。
同时,符合目标路径的分子数量呈数量级增长,显示出极强的路径控制能力。
合成策略集中化效应
Route Popularity 会使模型迅速集中到少数主导路径上,从而提高路径一致性。
然而,这种集中也带来了负面影响:分子多样性下降,并产生较多重复结构,限制了新分子的发现能力。
提升并行合成效率与探索能力
Fill-a-Plate 有效缓解了上述问题。该方法不仅显著增加了可填充的合成板数量,还提升了命中分子和骨架的数量。
此外,该策略能够持续推动模型进入新的合成空间,从而在探索与利用之间取得更好的平衡。

图4:两个典型合成板的逆合成路径。
讨论
本研究提出的核心思想,是将“可合成性”从传统的后筛选指标,转变为生成过程中的主动优化目标。这一转变不仅提高了生成分子的实际可行性,也使模型行为更符合真实药物化学流程。
通过引入不同层级的奖励函数,SynthSense 实现了从单分子优化到分子家族设计的转变,使生成模型能够同时考虑合成路径、策略一致性以及并行实验效率。
总体来看,该方法为生成式药物设计提供了一种更贴近实验现实的解决方案,有望在自动化合成和高通量筛选时代发挥重要作用。
整理 | DrugOne团队
参考资料
Dekleva, Dominik, et al. "Synthesizability via Reward Engineering: Expanding Generative Molecular Design into Synthetic Space." (2026).
https://doi.org/10.1039/D5SC09263A

内容为【DrugOne】公众号原创|转载请注明来源