

文献来源:Grosjean H. & Biggin P.C. Developments and challenges in hit progression within fragment-based drug discovery.Nature Communications (2026) 17:2226. DOI:https://doi.org/10.1038/s41467-026-68941-z 作者单位:牛津大学生物化学系结构生物信息与计算生物化学组;Diamond Light Source
过去60年,制药行业研发效率持续下滑。新药每十亿美元获批数量约每九年减半,这一趋势被称为 Eroom定律(Moore定律的反面)。这种效率衰退与治疗需求的持续扩张(老龄化、新发传染病、耐药性问题)之间的矛盾,构成了推动FBDD发展的根本动力。
片段药物发现(Fragment-Based Drug Discovery, FBDD)已发展为现代小分子药物发现的主流范式之一。目前已有 6个FDA批准药物 直接源自FBDD,代表性品种包括:
药物 | 靶点 | 适应症 |
|---|---|---|
Vemurafenib | BRAF V600E | 黑色素瘤 |
Venetoclax | BCL-2 | 慢性淋巴细胞白血病 |
Erdafitinib | FGFR | 膀胱癌 |
Sotorasib | KRAS G12C | 非小细胞肺癌 |
Asciminib | BCR-ABL | 慢性髓系白血病 |
Adagrasib | KRAS G12C | 非小细胞肺癌 |
此外,FBDD的应用边界已超越传统小分子,延伸至:
本综述不同于以往FBDD综述对筛选方法、靶点或适应症的单一聚焦,而是以DMT(Design-Make-Test)循环为主轴,系统阐述片段命中物从初始弱亲和力结合到临床前先导化合物这一过程中的方法进展与核心挑战。作者的背景涵盖计算辅助配体设计、X射线晶体学、生物物理学和direct-to-biology测试技术,使本文具有独特的整合视角。
片段通常由"Rule of 3"定义:
性质 | 阈值 |
|---|---|
分子量(MW) | ≤ 300 Da |
脂水分配系数(logP) | ≤ 3 |
氢键供体(HBD) | ≤ 3 |
氢键受体(HBA) | ≤ 3 |
这一定义使片段处于化学空间的"低复杂度"区域,与HTS中典型的先导化合物(MW ~400–500 Da)形成鲜明对比。
HTS FBDD
─────────────────────────────────────────────────────
库容量:> 100万化合物 库容量:数百至数千片段
命中率:< 0.1% 命中率:1–10%(更高)
亲和力:纳摩尔级命中 亲和力:毫摩尔至微摩尔
分子量:~400–600 Da 分子量:< 300 Da
配体效率(LE):往往偏低 配体效率:较高(≥ 0.3 kcal/mol/HA)
优化空间:受限于复杂骨架 优化空间:模块化,可创意扩展配体效率(Ligand Efficiency)定义为:
LE ≥ 0.3 kcal/mol/HA 通常被认为是理想片段的基准。另一常用指标是亲脂性配体效率(LLE),表示在不依赖过度疏水性的前提下所获得的结合效率,LLE = pIC₅₀ − logP,其值越高,说明化合物以极性相互作用驱动结合,这在后续优化中更有潜力维持良好的ADMET性质。

片段库的质量直接决定了后续DMT循环的效率。优秀的片段库需满足:
多样性维度:
合成可及性:
质量控制:

库类型 | 代表案例 | 核心特征 | 已验证靶点 |
|---|---|---|---|
Poised库 | DSI-poised库(Diamond-SGC-iNEXT) | 含"活化键",支持快速多样化合成 | PHIP2(致命癌症相关溴域蛋白) |
卤代探针库 | FragLites | 含卤素,增强X射线衍射电子密度信号 | CDK2(细胞周期激酶) |
三维富集库 | 3D Library | 高sp³碳含量,改善溶解度和选择性 | 多靶点通用 |
拟肽库 | PepLites | 模拟氨基酸结合基序 | BRD4、ATAD2(溴域蛋白) |
螯合库 | Chelator Fragment Library | 针对金属蛋白酶金属配位中心 | 金属蛋白酶家族 |
共价库 | Covalent Minifrags | 含电亲核弹头,靶向半胱氨酸 | SARS-CoV-2 Mpro |
DSI-poised库案例深析: 该库被用于靶向PHIP2(pleckstrin同源结构域相互作用蛋白第二溴域),一种在致命癌症中过表达的蛋白。"活化键"策略允许在保持与受体关键相互作用的同时,快速通过高产率反应扩展化学空间,最终获得首批具有可测IC₅₀值、良好配体效率和结构数据的化合物。
FBDD中片段命中物的实验检测方法可分为三大类,各有其适用场景、灵敏度与通量权衡:
X射线晶体学(XRC)是FBDD的"黄金标准"结构方法:
重要警示:X射线晶体学与溶液相方法(SPR、NMR等)之间的命中物重叠率通常较低。晶体学命中物在溶液检测中可能无信号,原因包括:①高浸泡浓度超出溶液相方法的灵敏度范围;②不同实验条件(缓冲液、固定化方式)影响结合检测;③晶格约束稳定非优势结合构象。这一现象具有重要实践意义,不代表假阳性,而是提示方法互补性。
冷冻电镜(Cryo-EM)在FBDD中的应用正在兴起:
NMR结构信息(有限):
方法 | 通量 | 灵敏度 | 蛋白用量 | 主要读出 | 典型应用 |
|---|---|---|---|---|---|
NMR(配体检测) | 100–1000/天 | 高mM | 0.1–0.6 mg/管 | 配体化学位移变化 | 初筛;假阳性率低 |
NMR(蛋白检测) | 10–50/天 | 高mM | 0.5–1 mg/管 | 蛋白化学位移变化 | 命中验证;结合位点作图 |
表面等离子体共振(SPR) | 100–1000/天 | 中μM | 25–50 μg/芯片(可重复用) | 质量积累;实时动力学 | 亲和力排序;kₒff筛选 |
光栅耦合干涉(GCI) | 500–1000/天 | 中μM | 10–50 μg/固定 | 质量积累;动力学 | 高分辨率kₒff测量 |
等温滴定量热法(ITC) | 10–50/天 | 中μM | 0.3–1 mg/孔 | 热焓/热熵 | 热力学表征;亲和力排序 |
差示扫描荧光法(DSF/TSA) | 100–1000/天 | 中μM | 1–10 μg/孔 | 熔解温度变化 | 初筛;正交验证 |
质谱(MS) | 100–1000/天 | 高mM | <1 μg/样品 | 质荷比变化 | 初筛;共价筛选首选 |
微量热泳动(MST) | 100–500/天 | 中mM | <0.01 μg/孔 | 热泳动 | 命中验证;用量极少 |
生物层干涉(BLI) | 500–1000/天 | 中μM | 10–50 μg/固定 | 光学干涉动力学 | 命中验证;亲和力排序 |
NMR的特殊地位:NMR被广泛认为是溶液相小到中等分子量靶点片段结合检测的黄金标准。配体检测NMR(STD-NMR、WaterLOGSY等)假阳性率低,可同时处理混合样品(通量友好);蛋白检测NMR(¹H-¹⁵N HSQC)则可同时提供结合位点信息,为准结构信息来源。
包括酶活性测定、竞争性荧光偏振(FP)、时间分辨荧光共振能量转移(TR-FRET)、AlphaScreen等。通量最高(1000–10000/天),但对片段更易受PAINS干扰,假阳性率相对较高,通常作为初步筛选使用,需正交方法验证。
**泛实验干扰化合物(PAINS)**是FBDD中特别需要警惕的问题。由于片段在检测极限附近工作,PAINS通过以下机制产生靶标无关信号:
典型PAINS结构特征:儿茶酚/醌、罗丹宁、偶氮染料及相关氧化还原活性骨架。
结构方法的内在优势:晶体学或其他结构方法本质上减少了PAINS问题,因为其结合证据来自物理合理的姿态(清晰的差异电子密度、合理的几何形状和相互作用模式),而非间接的信号变化。
多方法正交验证是片段命中物质量控制的核心原则,理想的验证级联为:
初步筛选(高通量生化/生物物理)
↓
正交验证(不同原理的第二种方法)
↓
结构确认(晶体学/NMR,有条件时优先)
↓
功能验证(酶活性/细胞活性,排除结构沉默结合)跨独立方法的一致读出提供更强的真实靶标结合证据,支持优先级排序。
共价片段携带能与蛋白亲核残基不可逆反应的**"弹头"(warhead)**。共价结合通过将片段"钉住"在反应性残基上,从根本上规避了FBDD的核心挑战——弱亲和力问题。其优势包括:
弹头类型 | 靶向残基 | 代表反应 | 代表化合物 |
|---|---|---|---|
丙烯酰胺/氯乙酰胺 | Cys | Michael加成/亲核取代 | Sotorasib、Ibrutinib |
磺酰氟 | Tyr、Lys、Ser、His | SuFEx化学 | 多种研究工具 |
硼酸 | Ser(蛋白酶) | 可逆共价 | Bortezomib(相关原理) |
醛/腈 | Lys、Cys | 亚胺/硫代半缩醛 | 多种共价探针 |
磺酰氟是近年热点:能靶向多种亲核残基,但需注意其在DMSO或水中可能水解,同时也是组合化学中有用的构建块。
共价结合违反经典平衡假设,标准动力学分析(如SPR直接读出Kd)不再适用,需要专门的验证流程:
代表性成功案例——Sulfopin(Pin1抑制剂): 通过MS筛选电亲核片段库,发现以磺内酯-氯乙酰胺弹头共价修饰Pin1的Cys113位点。Sulfopin对Pin1具有强特异性、低毒性,在小鼠肿瘤模型中展示肿瘤消退,成为Pin1靶向治疗的重要探针化合物。
不可逆共价结合引入独特的ADMET挑战:
片段命中率通常高于HTS,选择哪些片段进行后续发展是决定项目成功的关键决策。综合文献与作者经验,优质片段应满足以下多维度标准:
属性 | 阈值/要求 | DMT阶段相关性 | 重要程度 |
|---|---|---|---|
配体效率(LE) | ≥ 0.3 kcal/mol/HA | 设计 + 测试 | 重要 |
亲脂性配体效率(LLE) | 越高越好 | 设计 + 测试 | 重要 |
热力学特征 | 焓驱动为优(焓-熵补偿) | 设计 + 测试 | 重要 |
溶解度 | > 10 mM(DMSO) | 测试 | 重要 |
合成可扩展性 | 有明确生长向量 | 合成 | 必要 |
热点结合 | 靶向功能性蛋白热点 | 设计 + 测试 | 重要 |
PAINS/毒性 | 无已知干扰基团 | 设计 + 测试 | 有则优先 |
化学空间多样性 | 与其他命中物互补 | 设计 | 重要 |
化学稳定性 | 筛选条件下不降解/聚集 | 合成 + 测试 | 必要 |
氢疏水平衡 | 极性基团主导结合 | 设计 + 测试 | 有则优先 |
三维复杂性 | sp³碳含量较高 | 设计 | 有则优先 |
焓驱动结合(通过定向极性接触和去溶剂化)通常预示更高的靶标特异性和结合稳定性。相比之下,单纯由疏水相互作用(熵驱动)贡献的结合在先导化合物优化中往往需要引入更多脂溶性基团,带来ADMET风险。因此,具有良好焓贡献的片段是更理想的起始点。
结合"热点"(hotspot)——蛋白能量学上重要的结合区域——是片段优先化的关键考量:
设计-合成-测试(DMT)循环是FBDD命中物优化的核心组织框架。本质上是一个数据驱动的迭代优化系统:
片段命中物
│
▼
┌─────────────────────────────────┐
│ 设计(Design) │
│ 配体法 / 结构法 / AI/ML辅助 │
│ SAR分析 → 合成可行性评估 │
└───────────────┬─────────────────┘
│ 设计方案(周至天)
▼
┌─────────────────────────────────┐
│ 合成(Make) │
│ 路线规划 → 合成执行 → 质控 │
│ 纯化 或 纯化无关策略 │
└───────────────┬─────────────────┘
│ 化合物(天至周)
▼
┌─────────────────────────────────┐
│ 测试(Test) │
│ 结合活性 / 结合姿态 / ADMET │
│ → 新SAR数据 │
└───────────────┬─────────────────┘
│ 数据反馈(周至月)
▼
先导化合物系列
在DMT循环的早期阶段,核心目标是围绕片段命中物建立可靠的SAR模型:
"目录SAR"(SAR-by-Catalogue)策略:筛选商业可得类似物,以低成本快速探索命中物周边化学空间。该策略的优势:
代表性工具流程——Frag4Lead:利用分子对接虚拟筛选MolPort目录,从超过10,000个候选分子中筛选endothiapepsin的5个片段命中物的28个扩展化合物,10个经晶体学确认,5个显示亲和力提升。

随着DMT循环推进,目标从SAR数据获取转向化合物效力的系统提升(趋向纳摩尔级亲和力):
维度 | 传统药化SAR优化(从HTS命中物出发) | FBDD-DMT |
|---|---|---|
起始点 | ~400–500 Da,接近先导化合物 | < 300 Da,弱亲和力片段 |
SAR可用性 | HTS数据可能直接提供初步SAR | 需通过DMT迭代建立 |
首要目标 | 微调效力/选择性/ADMET | 首先验证结合模式,建立化学可扩展性 |
合成自由度 | 受复杂骨架限制 | 模块化,修改余地大 |
迭代次数 | 相对较少 | 通常需要更多轮次 |
优势 | 较快到达先导阶段 | 化学多样性高,新颖骨架,IP空间更宽 |
COVID Moonshot针对SARS-CoV-2主蛋白酶(Mpro)的全开放科学项目,是迄今FBDD领域规模最大的协同DMT实践:
该项目证明,在资源约束下,开放科学与自动化的结合可以实现令人瞩目的DMT效率。
设计阶段的计算方法构成一个由粗到精的层级体系,计算成本与预测精度呈正相关:
计算成本递增 ──────────────────────────────────→
配体法(2D/3D)→ 分子对接 → 分子动力学 → 自由能计算(FEP)
处理化合物数量递减 ←──────────────────────────────
预测精度递增 ──────────────────────────────────→
建立初始跟进化学空间:
生成模型与变分自编码器(VAE):
ADMET早期整合:临床衰减约40–45%归因于ADMET问题。基于逆合成路径的机器学习模型(CoPriNet等)可预测化合物价格或合成成本,支持早期优先化。
核心挑战:常规对接工作流程未内嵌对实验片段姿态的利用,需要量身定制协议:
代表性成果:以4个PKA(蛋白激酶A)片段姿态为模板进行模板对接虚拟筛选,从中发现40个活性化合物,最优跟进化合物较原始片段亲和力提升13,500倍。
共价片段的特殊处理:标准对接工具不适用于共价结合,需要专门的共价对接协议(如Glide、AutoDock4/GPU版本中的共价模式),以弹头-残基共价键为约束进行采样。

用途分层:
应用 | 方法 | 典型计算规模 | 注意事项 |
|---|---|---|---|
结合姿态优化 | 标准MD;MM-GBSA重评分 | 10–100 ns/系统 | 需要初始合理姿态 |
构象稳定性评估 | 多副本MD | 10–50 ns × N副本 | 采样效率有限 |
结合自由能预测 | FEP/RBFE | 数十ns/λ点 | 需要精确力场参数 |
片段结合事件捕获 | 非偏向长时MD | 数百ns至μs | 计算成本极高 |
关键案例——A1腺苷受体(A1AR):NMR筛选得到微摩尔级片段后,通过MD和RBFE计算预测一系列扩展化合物的结合自由能,实验结果显示最优化合物亲和力提升41,000倍,选择性提升40倍。
片段连接热力学分析(Yu et al., 2021):通过自由能分解分析,揭示片段连接中预期的亲和力加和性(additivity)常被破坏的原因——连接臂引入的不利相互作用、结合模式改变以及熵损失抵消了潜在收益。这为"片段连接为什么经常失败"提供了定量框架。
主动学习(Active Learning)策略的核心思路:用少量高精度(但昂贵)的结构计算结果训练快速配体模型,然后用此模型快速评分大规模化学空间:
三维分子生成模型:
模型 | 核心方法 | 特点 | 局限 |
|---|---|---|---|
AutoFragDiff | 片段扩散模型 | 整合已知片段构象,提升三维合理性 | 可合成性仍有限 |
FragGen | 几何约束 + ML | 成功交付纳摩尔级激酶抑制剂 | 需要结合位点结构 |
DeLinker | 图神经网络 | 三维空间中连接片段对 | 3D相似性优于实际亲和力预测 |
当前核心问题(作者直言不讳地指出):
在FBDD-DMT中,合成阶段往往是限速步骤:

逆合成算法的作用:将设计分子解构为简单组分,映射最优合成路径。
声波液滴喷射(ADE)技术:
簇合成策略(Cluster Synthesis):
流动化学(Flow Synthesis):
端到端自动化平台(Abdiaj et al., 2023):
C-H活化在FBDD中的革命性作用(Chessari et al., 2021):
碳-杂原子键形成:光催化半异质亚相金属光催化(Song et al., 2025)实现了磺酰胺/氨基甲酸酯前体的位点选择性氮/氧取代,为规模化片段衍生提供了新工具。
点击化学模块化扩展:两步法(伯胺→叠氮;Cu催化叠氮-炔环加成,形成三唑连接)可在数小时内建立大规模类似物库,产物纯度足以直接用于生物测试。已在靶向KSHV病毒蛋白LANA的片段中得到验证。
可合成化学的新领域——1,1'-双环丙烯衍生物:通过Au/Ag双金属催化环丙烯基交叉偶联合成,这类高张力双环苯异构体开辟了全新化学空间,温和条件下的模块化合成和良好的官能团容忍性,使其具备FBDD应用潜力。
光氧化还原介导的交叉脱氢偶联(Grainger et al., 2019):从纳克级高通量反应条件筛选出发,经连续流化学实现克级放大,产物含sp²-sp³特权结构(杂环胺类),直接与药物化学需求对接。
溶剂干扰问题:
传统测试流程要求纯化化合物,而纯化是DMT循环的主要时间成本之一。"纯化无关"方法直接对粗品混合物进行测试,仅在发现命中物时才回头纯化验证:
优势:大幅压缩Make-Test周期;允许更大规模探索化学空间 代价:混合物中多种组分可能贡献信号,需更复杂的数据分析和正交验证
核心流程:
B-SPA流程(Binding-Site Purification of Actives)(Grosjean et al., 2025,本文作者工作):
粗品晶体学的局限:
原理:解离速率(k_off,1/s)仅取决于配体-蛋白相互作用的强度,不受浓度变化影响。粗品混合物浓度通常未知或不确定,因此k_off是浓度无关的结合亲和力代理指标:
居留时间
SPR k_off筛选:针对BRD3-ET(溴域和额外末端结构域3 ET区域)的实例,通过NMR初步鉴定片段后,购买类似物进行NMR验证,然后对粗品平行合成混合物实施k_off筛选,发现约30倍亲和力提升的命中物,纯化后证实k_off与粗品测定一致,验证了方法可靠性。
GCI(光栅耦合干涉):对快速解离速率(短居留时间)的分辨能力优于标准SPR,适合早期片段追踪中的快k_off化合物。
配体检测NMR(STD-NMR、WaterLOGSY等):
蛋白检测NMR用于组合库混合物(Alboreggia et al.,2023):
NMR for SAR方法(Larda et al.,2023):
原理:片段构建块在热力学控制下可逆组装,靶蛋白将平衡推向亲和力最高的组合体,LC-MS鉴别富集产物。
优势:无需独立纯化、亲和力定量或合成所有可能组合体;纳摩尔级抑制剂可无需合成中间体直接发现。
代表案例:酰基腙片段在α-葡萄糖苷酶存在下动态组装,LC-MS比对蛋白模板库与空白库,鉴别富集产物,酶抑制验证,迭代生长/库演化获得纳摩尔级抑制剂。
DEL将数百万至数十亿化合物编码在DNA标签上,亲和力选择后通过测序解码命中物,本质上是"纯化无关"的超大规模平行筛选。
与FBDD的整合策略:
适用于复杂混合物中的结合相互作用精确定量,在平衡条件下运行,理论上不受浓度不确定性影响,是粗品混合物测试中提取定量亲和力信息的新兴工具。
蛋白层面的亲和力和效力不能保证细胞活性,常见失活原因包括:
典型案例——DNA旋转酶GyrB抑制剂(AZD5099):NMR筛选得到毫摩尔级吡咯命中物,晶体学引导优化至微摩尔级ATPase抑制剂,但早期先导化合物缺乏抗菌细胞活性,揭示了酶与细胞之间的"暴露差距"。最终通过3-哌啶取代基变化和4-噻唑取代基(形成七元分子内氢键,调节酸性和渗透性)解决了外排和渗透性问题,获得临床候选化合物。这是"结构正确但细胞无效"困境的典型案例。
靶点:磷酸二酯酶10A(PDE10A),精神科靶点(精神分裂症)

HTS路径(图5b):
FBDD路径(图5c):
融合优化——MK-8189:
本案例深刻揭示:多条DMT路径——即使起点不同、各有瓶颈——可以系统互补,在多参数优化中实现协同突破。
以人腺苷A3受体(hA3R)拮抗剂开发为例,展示了先进计算方法与实验的无缝集成:
片段弱亲和力的固有局限——贯穿全文的核心矛盾:
粗品数据去噪与可靠SAR提取:
晶体学片段数据的标准化与共享争议:
片段库选择的主观性:目前缺乏普适性的片段库设计标准和命中物选择框架,高度依赖经验判断和项目特异性。
AI/ML在FBDD中的成熟度评估:
应用场景 | 当前成熟度 | 主要限制 | 近期进展 |
|---|---|---|---|
化学空间探索(2D) | 较成熟 | 可合成性过滤 | 超大库主动学习 |
三维分子生成 | 早期探索 | 化学合理性差,难以验证 | AutoFragDiff, FragGen |
结合亲和力预测(对接) | 中等 | 片段弱结合时精度下降 | ML评分函数改进 |
自由能计算(FEP) | 较成熟(药物化学) | 计算成本高;片段挑战更大 | 主动学习降低成本 |
协同折叠(co-folding) | 早期 | 泛化性差 | 合成数据增强 |
逆合成规划 | 较成熟 | 局限于已知反应类型 | 深度学习模型持续改进 |
共价FBDD的计算鸿沟:用于模拟共价结合事件的量子力学(QM/MM)工具尚不成熟、对非专家不友好,这是一个明确的方法论缺口。
高通量自动化平台(机器人合成、自动化晶体学)和先进计算基础设施(GPU集群、Anton超算)需要大量资金投入,对抗病毒、抗生素等欠资助治疗领域以及中低收入国家研究机构形成壁垒。开放科学倡议(如COVID Moonshot)和数据共享标准(Erlanson et al., 2025关于片段数据最佳实践)是应对这一挑战的策略。
闭环自动化实验室(Closed-Loop Autonomous Lab):将机器学习决策、机器人合成和实时实验测试整合为自主迭代的DMT系统。尽管完整实现仍在早期,但多智能体AI实验室自动化框架(Fehlis et al., 2025等arXiv前沿工作)已初显雏形。
端到端数据标准化与共享:建立跨研究机构的片段数据格式标准、注释规范和最佳实践,是训练下一代AI模型、基准测试新方法的基础。Open Reaction Database(Kearnes et al.)和结构数据共享倡议是重要先例。
合成新方法的持续整合:C-H活化、光催化、金属-光氧化还原双催化等方法将持续拓展片段可达的化学空间,与FBDD的结合将更加系统化。
模块化片段与PROTAC/分子胶的协同:片段的模块化特性使其特别适合作为PROTAC中E3配体或底物配体的起始点,以及分子胶筛选的种子,为靶向蛋白降解策略提供新的化学工具。
这篇综述的价值不在于提供某一具体方法的操作细节,而在于以DMT循环为叙事主轴,将FBDD的整个研究生态以动态、整合的视角加以呈现:
以下精选部分具有代表性的原始引用,完整参考文献共详见原文。