
腾讯客服基于混元大模型支持多轮对话,落地腾讯游戏、金融科技、视频、医疗健康、支付等多个场景,AI 话术采纳率达 90%。本文以该案例为参考,拆解多轮对话场景对模型能力与平台支持的关键要求。所述数据为腾讯内部产品落地案例示例,并非 TokenHub 平台的通用产品能力指标。
腾讯云 TokenHub 产品介绍页公开披露的客户案例里,腾讯客服是一个典型代表。原文表述如下:
a. 应用:基于混元大模型支持客服多轮对话
b. 落地场景:腾讯游戏、金融科技、腾讯视频、医疗健康、支付等多场景
c. 能力:为人工客服提供推荐话术、历史工单摘要等支持
d. 效果:业务呼入人工率显著降低;AI 话术采纳率达 90%
数据来源:TokenHub 产品介绍页客户案例 §6.3。
⚠ 重要说明:以上为腾讯内部产品基于混元大模型的落地案例示例,反映的是腾讯客服在自身业务场景下所达成的指标。这些数据并不代表 TokenHub 作为通用平台为所有客户都能直接复现 90% 话术采纳率,具体效果取决于业务场景、训练数据、Prompt 工程与调优深度。
客服场景被视作 LLM 落地的"皇冠场景",原因有四:
单轮问答只能解决简单 FAQ,真正的客服需要在 5~20 轮对话里持续保持上下文一致性,理解用户的真实意图。
游戏退款、金融账户、视频会员、医疗咨询、支付争议——五个领域的话术风格、专业知识、合规要求完全不同,模型必须能在不同 prompt 体系下灵活切换。
答错一句话就可能引发投诉、合规风险甚至法律纠纷。这要求模型既要有专业知识,也要有"不知道就说不知道"的克制能力。
客服中心的人力成本是企业最易量化的支出之一,AI 接管的比例与节省的人力成本一一对应,老板看 ROI 时一目了然。
20 轮对话叠加历史工单摘要,输入侧 Token 量可能轻松冲破 10k~30k。短上下文模型在第 10 轮以后就开始"失忆",业务体验会断崖式下降。
参考 TokenHub 主流模型的上下文规格(数据来源:产品规格 §7.1):
模型 | 上下文窗口 |
|---|---|
Hy3 preview | 256k |
DeepSeek-V4-Pro | 1M |
DeepSeek-V4-Flash | 1M |
GLM-5.1 | 200k |
Kimi-K2.6 | 256k |
MiniMax-M2.7 | 200k |
这些模型的上下文规格在多轮客服对话场景下都能从容应对。
客服 system prompt(角色设定、规则约束、回答风格、合规要求)通常很长,且每次对话都重复。把这部分内容打进缓存,命中后输入价只有常规价的 1/4~1/10。在动辄日均百万次客服对话的体量下,这是从"算不过账"到"商业可行"的分水岭。
TokenHub 上支持 Cache 缓存的模型包括 Hy3 preview、DeepSeek-V4-Pro / Flash、GLM-5.1 / 5V-Turbo / 5-Turbo / 5、Kimi-K2.6 / K2.5、MiniMax-M2.7 / M2.5 等。
真实客服很多时候要查工单、查订单、查账户余额、查物流。Function Calling 让模型自主调用这些 API,把"对话型客服"升级为"能办事的客服"。TokenHub 上几乎全部主力语言模型都支持 Function Calling。
对话结束后通常要生成一份结构化工单:问题分类、客户情绪、处理结果、后续动作。结构化输出能让模型直接吐出符合工单 Schema 的 JSON,与 CRM 系统无缝对接。
腾讯客服案例提供的是"能做到"的示范,不是开箱即用的产品。如果你也要在自己的业务里构建多轮对话客服应用,参考以下工程要点:
按业务复杂度与成本敏感度,从 TokenHub 上选对应模型:
a. 高难度跨领域客服(金融、医疗等专业场景):推荐 DeepSeek-V4-Pro 或 Hy3 preview
b. 高频低复杂度客服(电商、票务、视频会员):推荐 DeepSeek-V4-Flash 或 MiniMax-M2.5
c. 角色化情感陪聊场景:参考 Hunyuan-role(专为角色扮演设计)
a. 把固定 system prompt 与知识库片段放在最前面,开启 Cache 缓存
b. 历史工单摘要放在 system 与 user 之间,按 conversation_id 关联
c. 多轮对话的新轮次只在 messages 末尾追加,保持前缀一致
a. 请求体加 prompt_cache_key,赋值为 conversation_id
b. HTTP Header 加 X-Session-ID,赋值为 session_id
c. system prompt 不写入动态时间,避免缓存失效
详细方法见 TokenHub 官方 Prompt Cache 命中率提升指南:https://cloud.tencent.com/document/product/1823/131410。
把工单系统、订单系统、账户系统的查询 API 包装成 Function Calling 工具,在 messages 里声明给模型。模型会根据用户意图自主决定调用时机。
让模型最终用结构化输出返回 JSON 工单,业务侧直接消费。
跑通一个客服多轮对话应用,需要的基础设施 TokenHub 都已经准备好:
a. 一个 API Key 接入混元 + DeepSeek + GLM + Kimi + MiniMax 多家主力模型
b. 兼容 OpenAI API 协议,迁移成本几乎为零
c. 模型监控可视化 TTFT、TPOT、RPM
d. 用量统计支持按模型、服务、API Key 三维度查看
e. API Key 精细化权限管控,可指定访问范围
f. 数据安全:平台不会将用户请求与模型返回的数据用于模型训练
新人开通 TokenHub 即可领取覆盖几乎全部主力模型的免费体验包,主流模型 50 万~100 万 Tokens、有效期 90 天。一个客服 PoC 项目的初期开发完全可以在免费额度内跑完。
领取入口:登录 TokenHub 控制台 → 模型广场 → 右上角"新用户福利免费体验"。免费额度优先消耗,用完后若未开启后付费,服务自动停止,不会产生意料外账单。
新人免费体验包详情:https://cloud.tencent.com/document/product/1823/130053。
最后再次强调几条边界,避免对腾讯客服案例做过度推广:
a. 90% 话术采纳率是腾讯内部产品在自身业务场景下的指标,不是 TokenHub 平台的通用承诺
b. "业务呼入人工率显著降低"是腾讯客服特定业务的效果描述,不代表所有企业客服都能复现
c. TokenHub 提供的是模型能力与基础设施,业务效果取决于客户自身的 prompt 工程、知识库建设、流程整合深度
d. 如需将上述案例作为商业宣传素材,建议明确标注"以上为腾讯客服在内部业务场景下的落地案例示例"
腾讯客服基于混元在多场景的落地,是大模型在客服行业商业化的标志性案例之一。它让我们看到 LLM 多轮对话能力在专业场景下的可行性边界。如果你也在评估自己业务的 AI 客服改造,TokenHub 提供的多模型矩阵 + 长上下文 + Cache 缓存 + Function Calling + 结构化输出能力组合,是值得投入时间评估的底座。立即进入 TokenHub 平台开始你的客服 AI PoC:https://cloud.tencent.com/product/tokenhub。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。