

文献来源:Slaninákova T, Rošinec A, Čillík J, et al. AlphaFind v2: Similarity Search in AlphaFold DB and TED Domains across Structural Contexts. bioRxiv preprint, DOI: 10.64898/2026.03.10.710735 (2026年3月12日) 工具地址:https://alphafind.ics.muni.cz/ 作者单位:捷克马萨里克大学信息学院、CEITEC中欧技术研究所、帕拉茨基大学等

结构生物学正在经历一场数据革命。传统上,蛋白质三维结构的获取依赖于 X 射线晶体学、冷冻电镜(cryo-EM)和核磁共振(NMR)等实验手段,耗时费力,结构积累缓慢。截至目前,世界主要蛋白质结构实验数据库——蛋白质数据库(Protein Data Bank,PDB)——收录了超过 22.7 万条实验解析结构。
然而,2021 年 DeepMind 的 AlphaFold2 横空出世彻底改变了这一格局。基于深度学习的结构预测方法使得蛋白质结构的获取成本从数月乃至数年压缩至数分钟。由此建立的 AlphaFold 蛋白质结构数据库(AlphaFold DB)现已包含超过 2.4 亿条预测结构,覆盖从细菌到人类的绝大多数已知蛋白质序列空间。
这一量级的跃升——从 22.7 万到 2.4 亿——意味着我们拥有的结构数据多了近 1000 倍,但与此同时,从这些海量数据中高效提取生物学洞见的需求也变得空前迫切。
蛋白质的生物学功能本质上由其三维结构决定。一个广为人知的生物学规律是:结构相似往往意味着功能相关,即便序列层面的同源性已经极低甚至无法检测(即所谓的"远程同源"或"结构类似物")。这使得结构相似性搜索成为功能注释、药物靶点发现、进化分析等研究场景中不可或缺的工具。
量化结构相似性最权威的指标是 TM-score(Template Modeling Score),由张阳等人于 2004 年提出。TM-score 是一种长度归一化的比对分数,取值范围为 (0, 1],其中:
计算 TM-score 的前提是执行完整的结构比对(structural alignment),通常借助 US-align 等工具完成。这一过程对两个结构而言计算量可控,但若要对 2.4 亿条结构逐一比对,即使每次比对只需 0.01 秒,穷举也需要超过 276 天——这在实践中完全不可行。
面对上述挑战,学界逐渐达成共识:大规模结构搜索需要采用两阶段策略——
第一阶段(粗筛):使用快速近似方法,将蛋白质结构编码为低维向量嵌入(embedding),通过近似最近邻(Approximate Nearest Neighbor,ANN)搜索从亿级数据库中快速缩减候选集至数百条。
第二阶段(精排):对少量候选结构执行精确的结构比对,获得 TM-score、RMSD 等标准评估指标。
当前主流工具在这一框架下各有侧重:
工具 | 搜索对象 | 嵌入方法 | 主要特点 |
|---|---|---|---|
FoldSeek Server | 蛋白质链 | 3Di 字母表 | 速度快,基于序列比对框架 |
Progres | 蛋白质链/域 | 结构图嵌入 | 精度较高 |
Merizo-search | 蛋白质域 | FoldClass 嵌入 | 专注域级别搜索 |
AlphaFind v2 | 链 + 域 + 多域 | ESM3 + Transformer / FoldClass | 速度最快,精度最高,多模式 |
AlphaFind v2 的底层数据分为两大部分:
(1)AlphaFold DB 结构嵌入
研究团队下载了 AlphaFold DB 第 4 版(v4)的全部结构,对每个蛋白质使用以下流程生成嵌入向量:
ESM3 生成式蛋白质语言模型 + 专用 Transformer 神经网络 → 1536 维结构感知嵌入向量
这一嵌入策略来自 Segura 等人(2026年)的工作,其核心优势在于同时捕获序列信息与结构信息,使向量空间中的距离能有效反映结构相似性。
除全链嵌入外,团队还分别计算了**去除不稳定区域(pLDDT < 70/80/90)**后的条件嵌入,支持后续的置信度过滤搜索模式。
(2)TED 结构域嵌入
对于结构域层面的搜索,团队采用了来自 Kandathil 等人的预计算 FoldClass 128 维嵌入,从 TED(The Encyclopedia of Domains)数据库获取,该数据库提供了蛋白质结构域的系统性注释与分割信息。
向量数据库构建
所有嵌入向量与相关元数据(物种名、UniProt ID、基因名、蛋白质名等)存储于 OpenSearch 向量数据库。采用 HNSW(Hierarchical Navigable Small World)索引结构,并启用:
六种搜索模式各自对应一个独立的 OpenSearch 索引,确保检索行为的可预测性。
AlphaFind v2 提供的六种搜索模式并非简单的功能堆砌,而是针对不同生物学问题的精准工具:
对完整蛋白质链进行搜索,是最通用的模式。适用于序列保守、结构整体较稳定的蛋白质。输入支持 UniProt ID、PDB ID、基因符号、蛋白质名称等多种标识符。
这是 AlphaFind v2 相较于同类工具最具原创性的功能之一。AlphaFold2 在预测结构时为每个残基输出一个逐残基置信度分数 pLDDT(per-residue Local Distance Difference Test),范围 0–100,分级解读如下:
pLDDT 范围 | 结构可靠性 |
|---|---|
90–100 | 极高可信度,接近实验结构精度 |
70–90 | 高可信度,主链预测可靠 |
50–70 | 中等可信度,可能存在误差 |
< 50 | 低可信度,可能为无序区 |
传统结构搜索工具将预测结构视为整体处理,这意味着蛋白质中大量的固有无序区(intrinsically disordered regions,IDRs)——pLDDT 普遍较低——会作为噪音干扰比对结果。AlphaFind v2 的 pLDDT 过滤模式在计算嵌入和执行比对时仅考虑满足置信度阈值(70/80/90)的残基,从根本上消除无序区的干扰。
蛋白质往往是由多个**结构域(domain)**拼接而成的模块化实体。在结构域层面进行相似性搜索比全链搜索更能揭示进化上的深层联系——例如,激酶结构域在数百种功能迥异的蛋白质中保持高度保守。
TED 搜索模式基于 TED 数据库(The Encyclopedia of Domains)的结构域边界注释,仅对指定结构域区域执行嵌入与比对,大幅提高搜索精度。
这是 AlphaFind v2 最具创新性的功能。在蛋白质中,单个结构域的出现往往不具有特异性(同一个 Ig 域可以出现在数百种蛋白质中),但多个结构域的特定组合方式才是蛋白质功能特异性的真正来源。
多域搜索模式将多条蛋白质链上各个结构域的匹配分数整合为单一综合得分,同时在 3D 可视化界面中提供交互式权重调节滑块,允许用户实时调整各结构域对比权重,在"单域精细比对"与"全局整体对齐"之间动态切换。
用户提交查询标识符
│
▼
┌───────────────────────┐
│ 阶段一:查询验证与嵌入 │ ← ESM3 + Transformer
│ (约 2.4 秒) │ 生成 1536 维向量
└──────────┬────────────┘
│
▼
┌───────────────────────┐
│ 阶段二:近似 kNN 搜索 │ ← OpenSearch HNSW
│ 返回 Top-100 候选 │ 余弦距离检索
│ ★ 立即展示给用户 ★ │
└──────────┬────────────┘
│ 后台异步执行
▼
┌───────────────────────┐
│ 阶段三:US-align 精排 │ ← Celery + Redis
│ 计算 TM-score/RMSD │ 异步任务队列
│ 关联实验结构 │
│ ★ 完成后自动更新 ★ │
└───────────────────────┘
这一设计的精妙之处在于不阻塞用户界面:用户几乎立刻看到基于向量相似度的初步排名(kNN Score),可以先行浏览;精确的 TM-score 排名在后台计算完毕后自动刷新,无需额外操作。
AlphaFind v2 采用现代微服务架构,各组件职责分明:
组件 | 技术选型 | 职责 |
|---|---|---|
REST API | Flask(Python) | 请求验证与分发 |
异步任务队列 | Celery + Redis | TM-score 计算、实验结构关联 |
向量数据库 | OpenSearch(HNSW) | 嵌入存储与近似检索 |
持久化存储 | PostgreSQL | 任务状态管理、结果缓存 |
3D 可视化 | Mol* Viewer | 交互式结构对齐展示 |
容器编排 | Kubernetes | 计算节点弹性伸缩 |
Kubernetes 的使用使系统能够根据实时负载动态扩缩计算节点,保证高峰期的响应性能。
方法 | 响应时间(均值±标准差) | Top-10 TM-Score | Top-100 TM-Score | 全部结果 TM-Score |
|---|---|---|---|---|
AlphaFind v2(近似) | 2.40 ± 1.89 s | 0.733 | 0.654 | 0.588 |
AlphaFind v2(精排) | 45.88 ± 54.27 s | — | — | — |
FoldSeek Server | 42.03 ± 37.47 s | 0.596 | 0.532 | 0.440 |
AlphaFind v1 | 93.38 ± 36.65 s | 0.670 | 0.546 | 0.364 |
方法 | 响应时间(均值±标准差) | Top-10 TM-Score | Top-100 TM-Score |
|---|---|---|---|
AlphaFind v2(近似) | 0.49 ± 0.41 s | 0.947 | 0.894 |
AlphaFind v2(精排) | 31.28 ± 31.11 s | — | — |
Merizo-search | 145.97 ± 38.90 s | 0.865 | 0.824 |
从数据中可以得出以下关键结论:
速度方面:
精度方面:
公平性注意事项:
生物学背景
生长素(auxin)是植物生长发育的核心调控激素,其极性运输由 PIN(PIN-FORMED) 家族载体蛋白介导。PIN 蛋白是多次跨膜蛋白,按其胞质环(cytosolic loop)长短分为"长环型"和"短环型"两类。长环型 PIN 蛋白(如 PIN3)的胞质环高度无序,是典型的固有无序区(IDR),pLDDT 通常极低。
问题所在
当以全链模式搜索 PIN3(拟南芥,UniProt: Q9S7Z8)时,所有候选命中的 TM-score 均低于 0.7,且大豆中多个 PIN 同源蛋白完全被遗漏。原因显而易见:高度无序的胞质环在嵌入空间中引入了巨大噪声,掩盖了跨膜结构域的真实相似性信号。
AlphaFind v2 的解决方案
使用 pLDDT ≥ 90 搜索模式,系统仅对 PIN3 中 pLDDT 高于 90 的高置信度跨膜螺旋区域进行嵌入和比对,彻底排除无序胞质环的干扰。结果:

科学意义
该案例清晰表明:对于含有大量无序区的蛋白质(在预测结构组学时代极为常见),传统全链比对思路存在根本性局限。pLDDT 过滤模式提供了一种天然的、基于预测置信度的"质量控制"机制,将结构搜索的焦点精准锁定于生物学意义更明确的折叠区域。
生物学背景
神经细胞黏附分子 1(NCAM1)是免疫球蛋白(Ig)超家族的核心成员,广泛参与神经元黏附、突触形成和神经系统发育。人类 NCAM1(UniProt: P13591)的胞外域具有经典的模块化结构域架构:
N端 → [Ig域1] - [Ig域2] - [Ig域3] - [Ig域4] - [Ig域5] - [FnIII域1] - [FnIII域2] → 膜区其中,免疫球蛋白(Ig)域和纤连蛋白 III 型(FnIII)域在蛋白质宇宙中广泛分布,单独搜索任意一个均会命中数以千计的无关蛋白。NCAM1 的功能特异性来自于这七个结构域的特定组合顺序,而非单个结构域本身。
多域搜索的挑战
在 3D 结构比对中,多域蛋白存在一个经典困境:若将整体结构最优对齐,则单个域对的对齐往往不精确(因为不同 AlphaFold 预测中各域的相对位置可能存在差异);若对单个域对最优对齐,则整体对齐被牺牲,无法评估多域架构的整体保守性。
AlphaFind v2 的多域模式
TED 多域搜索模式通过以下机制解决上述困境:

结果与意义
该案例成功识别了猫(Felis catus,UniProt: Q5G7G8)中的 NCAM1 同源蛋白,并揭示了免疫球蛋白超家族内的结构与进化关系。更重要的是,它展示了多域搜索在识别具有相似"结构语法"蛋白质方面的独特价值——这是当前任何单域搜索工具都无法实现的功能。
AlphaFind v2 的论文作者在局限性讨论上保持了值得称道的诚实态度:
目前使用的是 AlphaFold DB 第 4 版(v4),最新的第 6 版因尚未提供完整批量下载(出版时仅部分精选蛋白质组可用),暂未纳入。这意味着部分新发现的蛋白质序列对应的结构预测可能不在搜索范围内。
HNSW 近似最近邻算法不保证找到数学意义上的全局最优解。换言之,真正结构最相似的蛋白质可能不在 Top-100 候选集中。系统通过允许用户扩展候选集(加载更多条目并重新精排)来缓解这一问题,但无法从根本上消除。
FoldSeek 等工具能返回约 800 条结果,而 AlphaFind v2 域搜索模式默认返回约 100 条,用于比较"全部结果"TM-Score 时基数不同,需谨慎解读。
pLDDT 过滤假设低置信度区域即为无意义的无序区,但实际上某些无序区在特定条件下可能形成功能性结构(如经配体诱导的折叠)。过度过滤可能遗漏此类信息。
工具 | 嵌入方法 | 维度 | 信息来源 |
|---|---|---|---|
FoldSeek | 3Di 字母表(结构词汇) | ~20 类字符 | 局部结构几何 |
Progres | 结构图神经网络嵌入 | 128 | 局部-全局结构特征 |
Merizo-search | FoldClass 嵌入 | 128 | 几何学习 |
AlphaFind v2(链) | ESM3 + Transformer | 1536 | 序列 + 结构联合 |
AlphaFind v2(域) | FoldClass 嵌入 | 128 | 几何学习 |
1536 维的高维嵌入空间理论上能捕获更丰富的结构信息,这可能是 AlphaFind v2 在链搜索中精度更高的重要原因之一。
功能 | AlphaFind v2 | FoldSeek | Progres | Merizo-search |
|---|---|---|---|---|
全链搜索 | ✓ | ✓ | ✓ | — |
pLDDT 过滤 | ✓ | — | — | — |
结构域搜索 | ✓ | — | ✓ | ✓ |
多域联合搜索 | ✓ | — | — | — |
交互式 3D 对齐 | ✓ | ✓ | — | — |
物种/分类过滤 | ✓ | — | — | — |
CATH 标签过滤 | ✓ | — | — | — |
实验结构关联 | ✓ | — | — | — |
TM-score 输出 | ✓ | —(需后处理) | ✓ | ✓ |
开放访问 | ✓ | ✓ | ✓ | ✓ |
用户可通过以下任意一种方式指定查询蛋白质:
P69905)1HHO)hemoglobin)HBA1)每条命中结果包含以下信息:
字段 | 描述 |
|---|---|
UniProt ID | 命中蛋白质的唯一标识 |
蛋白质名称 | 功能注释 |
物种名称 | 来源生物 |
TM-score | 结构相似性主评分(精排后) |
RMSD | 均方根偏差(Å),衡量原子位置差异 |
对齐残基数 | 参与比对的残基数量 |
序列同一性 | 对齐区域的序列相似度 |
kNN Score | 向量余弦相似度(近似搜索阶段使用) |
实验结构链接 | 关联的 PDB 实验结构(若存在) |
点击任意命中结果,系统在嵌入的 Mol Viewer* 中呈现查询与目标结构的交互式三维叠合。可视化有以下特性:
AlphaFind v2 在数据开放方面做到了以下几点:
AlphaFind v2 在以下几个维度对蛋白质结构相似性搜索领域做出了实质性推进:
技术创新层面:
工程实践层面:
AlphaFind v2 的推出对以下研究方向具有直接赋能意义: