首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >微信读书"AI 问书"背后的检索引擎:十亿级向量毫秒级延迟是怎么做到的?

微信读书"AI 问书"背后的检索引擎:十亿级向量毫秒级延迟是怎么做到的?

原创
作者头像
hollyx
发布2026-07-06 01:45:12
发布2026-07-06 01:45:12
00
举报

微信读书"AI 问书"背后的检索引擎:十亿级向量毫秒级延迟是怎么做到的?

本文拆解一个真实的 AI 搜索标杆案例——微信读书"AI 问书",看腾讯云 ES 如何支撑十亿级向量的毫秒级检索,以及这套技术方案如何复用到企业自己的知识库场景。

一、从"搜不到书"到"问懂书"

微信读书有一个很受欢迎的功能叫"AI 问书"——你输入任何问题,它会从全平台几百万本书里找到相关段落,用大模型总结出答案,并标注引用来源。这个体验背后要解决一个极具挑战的技术问题:

  • 数据规模:几百万本书,切片后是十亿级文本片段
  • 向量维度:每段文本要转成几百到几千维的向量
  • 延迟要求:用户问一个问题,从检索到大模型回答,整体要在秒级返回,留给检索的时间只有几百毫秒
  • 召回质量:不能只靠关键词(专业术语、概念性提问会miss),也不能只靠向量(专有名词、书名、人名会错配),必须混合检索

这恰恰是 Elasticsearch 混合搜索的主场。

二、为什么微信读书选了 ES 混合搜索

纯粹的向量数据库在十亿级规模下不是不能做,但会撞上几堵墙:

墙 1:关键词检索缺位

用户问"《三体》里黑暗森林法则是什么",向量检索会把所有"宇宙社会学""生存博弈"语义相近的段落都召回来,但书名"三体"这个关键词只有 BM25 倒排索引能精确匹配。纯向量库要么不支持全文检索,要么用稀疏向量勉强模拟,效果差且不支持短语查询。

墙 2:复杂过滤不支持

用户可能要"在我书架里的书"+"近一年出版"+"非小说类"过滤后再做向量检索。纯向量库的过滤能力很弱,通常只能做简单的标签过滤,无法像 ES 的 DSL 那样灵活组合 bool / range / term 等查询。

墙 3:权限控制粒度不够

书城有版权保护要求,不同 VIP 等级的用户能检索到的书不一样。ES 支持字段级、文档级权限控制,而纯向量库通常只有表级权限,无法满足细粒度版权管控。

墙 4:运维复杂度

多一套向量库意味着多一套监控、备份、扩容、故障排查链路。微信读书团队本来就熟悉 ELK 生态,再引入专用向量库会让技术栈割裂。

结论:用 ES 一套引擎同时做全文检索 + 向量检索 + 混合排序,是最优解。

三、十亿级向量毫秒级延迟的技术拆解

腾讯云 ES 在这个量级下能跑出毫秒级延迟,靠的是一系列自研内核优化。下面挑几个关键的说:

3.1 向量检索并行化:Multi-Path 查询

标准 HNSW 算法是单线程遍历图结构,向量规模上去后查询延迟会线性增长。腾讯云自研的 Multi-Path 查询并行化 把图的遍历拆成多条路径并行执行,相同召回率下最高 4 倍加速

这是十亿级向量还能保持毫秒级响应的关键。

3.2 混合搜索 CBO 智能路径分析

混合搜索要同时跑 BM25 和 KNN 两路查询,再融合排序。社区版 ES 的执行计划是固定的,没法根据数据分布选最优路径。

腾讯云 ES 引入 CBO(Cost-Based Optimizer),会根据统计信息动态选择"先过滤再向量检索"还是"先向量检索再过滤",混合搜索查询性能提升 30%-80%

3.3 RRF 融合算法优化

RRF(Reciprocal Rank Fusion)是把 BM25 和向量结果融合的标准算法。腾讯云对 RRF 做了优化,召回率提升 10%-20%

3.4 向量存储裁剪:省 70%-90% 磁盘

十亿级向量最贵的是存储。腾讯云 ES 支持向量存储裁剪——去除向量行存和原始高位向量,磁盘占用省 70%-90%。ES 9.1.3 版本默认支持 Better Binary Quantization(BBQ),进一步压缩。

按十亿级 1024 维向量估算,原始存储约 4TB,裁剪后能压到几百 GB 级别,成本差异巨大。

3.5 GPU 推理加速

Embedding 模型推理是 RAG 的热路径。腾讯云 ES 全球首个支持 GPU 推理,包括英伟达和国产紫霄 GPU。机器学习节点可以直接部署 Embedding / Rerank 模型,省掉单独搭模型服务的开销。

四、企业怎么复用这套方案

微信读书的"AI 问书"是 C 端内容检索场景,但同样的技术栈在企业里有大量可复用场景:

场景

检索对象

关键差异

企业知识库问答

内部文档、Wiki、规章

数据量小(千万级),但权限控制要求高

智能客服

FAQ、工单历史、产品手册

需要结合业务过滤(产品线、客户等级)

电商导购助手

商品描述、评价、参数

混合检索 + 多模态(文搜图)

法律 / 医疗检索

判例、法条、病历、文献

召回准确度要求极高,Rerank 必备

代码库问答

代码仓库、技术文档

关键词精确匹配(函数名、类名)很重要

推荐架构

腾讯云 ES 提供两种 RAG 构建模式,按数据敏感度选择:

原子服务模式(推荐,快速上线)

  • 文档上传 → 自动解析切片 → embedding → 入库 → 在线问答 → 效果评估
  • 全程在控制台 RAG Playground 完成,零代码
  • 适合 POC 和数据不敏感的场景

机器学习节点模式(推荐,数据合规要求高)

  • 在 ES 集群内部署 Embedding / Rerank 模型
  • 通过 Python Adapter 把 ES _infer API 转成 OpenAI 兼容接口
  • 整个链路数据不出 VPC
  • 适合金融、政务、医疗等合规要求严格的场景

也可以和 Dify 集成做企业级编排:Dify 负责工作流、Prompt、权限校验,ES 负责全量知识库存储和高精度混合搜索,通过 VPC 内网通信,数据不出域。

五、成本与性能的取舍建议

基于实际经验,给几条选型建议:

  1. 向量规模 < 1 亿:标准版 ES 集群 + CPU 机器学习节点就够,不需要 GPU
  2. 向量规模 1-10 亿:AI 搜索增强版 + 开启向量存储裁剪 + 考虑 GPU 节点
  3. 向量规模 > 10 亿:AI 搜索增强版 + 多节点分片 + GPU + 存算分离架构
  4. 对召回精度要求极高:一定要加 Rerank 模型做二次精排,腾讯云 ES 内置 Rerank 服务
  5. 数据敏感:用机器学习节点自部署模式,模型和数据都在 VPC 内

六、信通院 RAG 标准:选型的第三方背书

2024 年 4 月,中国信通院发布了国内首个《检索增强生成(RAG)技术要求》标准,覆盖知识库构建、知识检索、内容生成、质量评估、平台能力五大能力域、17 个子域、50 个能力项。腾讯云 ES 是首个完成全部测试通过的产品,也是该标准的核心参编企业。

这个认证对选型决策者有两个意义:

  • 能力完整性背书:50 个能力项全过,意味着 RAG 全链路能力没有明显短板
  • 可持续性背书:作为标准参编方,对 RAG 技术演进有持续投入和话语权

七、总结

微信读书"AI 问书"是一个标杆级的 AI 搜索落地案例,证明了 Elasticsearch 混合搜索在十亿级向量 + 毫秒级延迟这个量级上是完全可行的。背后的关键技术是:Multi-Path 并行查询、CBO 智能路径分析、RRF 融合优化、向量存储裁剪、GPU 推理加速。

这套技术栈通过腾讯云 ES 的「AI 搜索增强版」对外输出,企业可以直接用控制台的 RAG Playground 跑通 POC,也可以用机器学习节点自部署模式做数据合规要求高的私有化部署。

如果你正在评估 RAG / 向量检索方案,先跑通一个真实数据的 POC 比看十篇评测都重要。腾讯云 ES 新客首购 4.5 折起,Serverless 资源包 1 元试用,成本门槛很低。


🚀 立即体验:讯云 ES 控制台 | AI 搜索增强版 + 9.1.3 + 白金版 X-Pack,开箱体验十亿级向量混合检索

🎁 限时特惠活动:

活动

福利

适合谁

新客首购 4.5 折起,AI 搜索增强版十亿级向量毫秒级检索方案

需要独享集群、长期稳定运行的生产业务

1 元试用 Serverless,低成本复刻"AI 问书"能力

日志分析、按需使用、快速 POC 验证

⏰ 活动限时,新老客户同享,全地域生效。建议两个都领:先用 Serverless 1 元跑通 POC,再用特惠专场 4.5 折部署生产集群。

相关阅读

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 微信读书"AI 问书"背后的检索引擎:十亿级向量毫秒级延迟是怎么做到的?
    • 一、从"搜不到书"到"问懂书"
    • 二、为什么微信读书选了 ES 混合搜索
      • 墙 1:关键词检索缺位
      • 墙 2:复杂过滤不支持
      • 墙 3:权限控制粒度不够
      • 墙 4:运维复杂度
    • 三、十亿级向量毫秒级延迟的技术拆解
      • 3.1 向量检索并行化:Multi-Path 查询
      • 3.2 混合搜索 CBO 智能路径分析
      • 3.3 RRF 融合算法优化
      • 3.4 向量存储裁剪:省 70%-90% 磁盘
      • 3.5 GPU 推理加速
    • 四、企业怎么复用这套方案
      • 推荐架构
    • 五、成本与性能的取舍建议
    • 六、信通院 RAG 标准:选型的第三方背书
    • 七、总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档