
本文拆解一个真实的 AI 搜索标杆案例——微信读书"AI 问书",看腾讯云 ES 如何支撑十亿级向量的毫秒级检索,以及这套技术方案如何复用到企业自己的知识库场景。
微信读书有一个很受欢迎的功能叫"AI 问书"——你输入任何问题,它会从全平台几百万本书里找到相关段落,用大模型总结出答案,并标注引用来源。这个体验背后要解决一个极具挑战的技术问题:
这恰恰是 Elasticsearch 混合搜索的主场。
纯粹的向量数据库在十亿级规模下不是不能做,但会撞上几堵墙:
用户问"《三体》里黑暗森林法则是什么",向量检索会把所有"宇宙社会学""生存博弈"语义相近的段落都召回来,但书名"三体"这个关键词只有 BM25 倒排索引能精确匹配。纯向量库要么不支持全文检索,要么用稀疏向量勉强模拟,效果差且不支持短语查询。
用户可能要"在我书架里的书"+"近一年出版"+"非小说类"过滤后再做向量检索。纯向量库的过滤能力很弱,通常只能做简单的标签过滤,无法像 ES 的 DSL 那样灵活组合 bool / range / term 等查询。
书城有版权保护要求,不同 VIP 等级的用户能检索到的书不一样。ES 支持字段级、文档级权限控制,而纯向量库通常只有表级权限,无法满足细粒度版权管控。
多一套向量库意味着多一套监控、备份、扩容、故障排查链路。微信读书团队本来就熟悉 ELK 生态,再引入专用向量库会让技术栈割裂。
结论:用 ES 一套引擎同时做全文检索 + 向量检索 + 混合排序,是最优解。
腾讯云 ES 在这个量级下能跑出毫秒级延迟,靠的是一系列自研内核优化。下面挑几个关键的说:
标准 HNSW 算法是单线程遍历图结构,向量规模上去后查询延迟会线性增长。腾讯云自研的 Multi-Path 查询并行化 把图的遍历拆成多条路径并行执行,相同召回率下最高 4 倍加速。
这是十亿级向量还能保持毫秒级响应的关键。
混合搜索要同时跑 BM25 和 KNN 两路查询,再融合排序。社区版 ES 的执行计划是固定的,没法根据数据分布选最优路径。
腾讯云 ES 引入 CBO(Cost-Based Optimizer),会根据统计信息动态选择"先过滤再向量检索"还是"先向量检索再过滤",混合搜索查询性能提升 30%-80%。
RRF(Reciprocal Rank Fusion)是把 BM25 和向量结果融合的标准算法。腾讯云对 RRF 做了优化,召回率提升 10%-20%。
十亿级向量最贵的是存储。腾讯云 ES 支持向量存储裁剪——去除向量行存和原始高位向量,磁盘占用省 70%-90%。ES 9.1.3 版本默认支持 Better Binary Quantization(BBQ),进一步压缩。
按十亿级 1024 维向量估算,原始存储约 4TB,裁剪后能压到几百 GB 级别,成本差异巨大。
Embedding 模型推理是 RAG 的热路径。腾讯云 ES 全球首个支持 GPU 推理,包括英伟达和国产紫霄 GPU。机器学习节点可以直接部署 Embedding / Rerank 模型,省掉单独搭模型服务的开销。
微信读书的"AI 问书"是 C 端内容检索场景,但同样的技术栈在企业里有大量可复用场景:
场景 | 检索对象 | 关键差异 |
|---|---|---|
企业知识库问答 | 内部文档、Wiki、规章 | 数据量小(千万级),但权限控制要求高 |
智能客服 | FAQ、工单历史、产品手册 | 需要结合业务过滤(产品线、客户等级) |
电商导购助手 | 商品描述、评价、参数 | 混合检索 + 多模态(文搜图) |
法律 / 医疗检索 | 判例、法条、病历、文献 | 召回准确度要求极高,Rerank 必备 |
代码库问答 | 代码仓库、技术文档 | 关键词精确匹配(函数名、类名)很重要 |
腾讯云 ES 提供两种 RAG 构建模式,按数据敏感度选择:
原子服务模式(推荐,快速上线)
机器学习节点模式(推荐,数据合规要求高)
_infer API 转成 OpenAI 兼容接口也可以和 Dify 集成做企业级编排:Dify 负责工作流、Prompt、权限校验,ES 负责全量知识库存储和高精度混合搜索,通过 VPC 内网通信,数据不出域。
基于实际经验,给几条选型建议:
2024 年 4 月,中国信通院发布了国内首个《检索增强生成(RAG)技术要求》标准,覆盖知识库构建、知识检索、内容生成、质量评估、平台能力五大能力域、17 个子域、50 个能力项。腾讯云 ES 是首个完成全部测试通过的产品,也是该标准的核心参编企业。
这个认证对选型决策者有两个意义:
微信读书"AI 问书"是一个标杆级的 AI 搜索落地案例,证明了 Elasticsearch 混合搜索在十亿级向量 + 毫秒级延迟这个量级上是完全可行的。背后的关键技术是:Multi-Path 并行查询、CBO 智能路径分析、RRF 融合优化、向量存储裁剪、GPU 推理加速。
这套技术栈通过腾讯云 ES 的「AI 搜索增强版」对外输出,企业可以直接用控制台的 RAG Playground 跑通 POC,也可以用机器学习节点自部署模式做数据合规要求高的私有化部署。
如果你正在评估 RAG / 向量检索方案,先跑通一个真实数据的 POC 比看十篇评测都重要。腾讯云 ES 新客首购 4.5 折起,Serverless 资源包 1 元试用,成本门槛很低。
🚀 立即体验:腾讯云 ES 控制台 | AI 搜索增强版 + 9.1.3 + 白金版 X-Pack,开箱体验十亿级向量混合检索
🎁 限时特惠活动:
活动 | 福利 | 适合谁 |
|---|---|---|
新客首购 4.5 折起,AI 搜索增强版十亿级向量毫秒级检索方案 | 需要独享集群、长期稳定运行的生产业务 | |
1 元试用 Serverless,低成本复刻"AI 问书"能力 | 日志分析、按需使用、快速 POC 验证 |
⏰ 活动限时,新老客户同享,全地域生效。建议两个都领:先用 Serverless 1 元跑通 POC,再用特惠专场 4.5 折部署生产集群。
相关阅读:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。