
Agent 工作模式天然意味着高 Token 消耗——长 system prompt + 多轮工具调用 + 大量上下文复读。本文围绕腾讯云 TokenHub 提供的 Prompt Cache 与 Token Plan 套餐订阅两条降本路径,介绍如何把按量调用转换成可控的月度成本。
普通对话场景一次问答几百到一两千 Token,Agent 场景往往一上来就是数万 Token:
a. 超长 system prompt:定义工具集、约束输出格式、规范错误处理流程,少则两三千 Token,多则上万。
b. 多轮工具调用:每一次工具反馈都是一次新的 user/tool message,多轮下来上下文膨胀很快。
c. 重复读文件 / 重复加载知识:Agent 决策时反复参考同一份资料,没做缓存时每次都要重新计算。
d. 思维链消耗:深度思考类模型在生成最终答案前还有内部思维链推理,输出 Token 也明显高于普通问答。
总之,Agent 不是"调用次数多",而是"每次调用上下文重"。这两条降本路径,是产品资料里实际写到的解法——不是营销话术。
Prompt Cache 的核心思路是:当多个请求的前缀相同(比如同一份 system prompt + 同样的工具定义),底层不用每次都重新做注意力计算,而是直接复用之前的 KV Cache 数据。
效果上,缓存命中的输入 Token 享受更低单价。腾讯云 TokenHub 产品资料明确写到:缓存命中价格通常为常规输入价的 1/4 ~ 1/10(具体倍数因模型而异,详见 §8.2 价格表)。
模型 | 是否支持 Cache 缓存 | 缓存命中价(元/百万 tokens) |
|---|---|---|
Hy3 preview | 支持 | 0.4 / 0.6 / 0.8(按输入长度阶梯) |
DeepSeek-V4-Flash | 支持 | 0.2 |
DeepSeek-V4-Pro | 支持 | 1 |
GLM-5.1 | 支持 | 1.3 / 2 |
GLM-5V-Turbo | 支持 | 1.2 / 1.8 |
GLM-5-Turbo | 支持 | 1.2 / 1.8 |
GLM-5 | 支持 | 1 / 1.5 |
Kimi-K2.6 | 支持 | 1.1 |
Kimi-K2.5 | 支持 | 0.7 |
MiniMax-M2.7 | 支持 | 0.42 |
MiniMax-M2.5 | 支持 | 0.21 |
价格单位:元/百万 tokens。完整价格表见产品资料 §8.2。
a. 使用 prompt_cache_key:请求级别的缓存标识字段,赋值为整体上下文总 ID(推荐用业务侧的 conversation_id),而不是单一会话 session_id。
{
"model": "your-model",
"prompt_cache_key": "conv-6900xxxx",
"messages": [
{"role": "system", "content": "你是一个助手..."},
{"role": "user", "content": "你好"}
]
}b. 使用 X-Session-ID Header:通过 HTTP Header 传递会话标识,把同一用户的连续请求路由到同一推理实例,提高该实例上的 KV Cache 局部命中率。
c. 稳定 System Prompt:避免在 system prompt 中写时间相关内容(如"今天是 2026 年 5 月 9 日"),日期跳变会瞬间使所有缓存失效。把时间放进 user message。
d. 保持 messages 结构稳定:messages 中各消息的 role 保持稳定、消息数量结构保持一致、消息排列顺序保持一致,新对话轮次只在 messages 数组末尾追加,不要在中间插入或修改。
e. 新版本发版前预热:少量模拟会话访问 API 提前构建 KV Cache,避免突增流量冲击;监控 Cache Rate 指标。
完整指南:https://cloud.tencent.com/document/product/1823/131410。
Agent 的工作循环本质上是同一个上下文反复刷新:
a. system prompt 在整个任务期间稳定不变。
b. 工具定义在整个任务期间稳定不变。
c. 历史 messages 只在末尾追加新工具调用结果。
这正好满足 Prompt Cache 的最佳实践条件。
按量调用是"用多少算多少",月底账单取决于实际使用情况,对预算管理不友好。套餐订阅是"先买月度限额,超出再说",对成本控制更直接。
腾讯云 TokenHub 提供四类套餐:
套餐 | 适用人群 | 起步价 | 月度 Token 限额 |
|---|---|---|---|
Hy Token Plan 个人版 | 个人开发者,专用 Hy3 preview | 28 元/月 | 3,500 万 Tokens 起步 |
通用 Token Plan 个人版 | 个人开发者,多模型矩阵 | 39 元/月 | 3,500 万 Tokens 起步 |
Token Plan 企业版轻享 | 企业团队,Auto 智能路由 | 2 元/百万 tokens | 5000 万 Tokens 起步 |
Token Plan 企业版专业 | 企业团队,多模型积分制 | 月预算 1000–20000 元 | 按月预算购买积分池 |
套餐价格相比 API 按量计费便宜 50%-80%(来源:产品资料 §4.2)。
Hy Token Plan 基于腾讯 2026 年 4 月最新自研混元模型打造(295B/21B 激活的 MoE 架构,原生支持 256K 上下文),面向 Agent 工作负载设计:
档位 | 月度 Token | 价格 | 适用场景 |
|---|---|---|---|
Lite | 3,500 万 | 28 元/月 | 新手尝鲜 |
Standard | 1 亿 | 78 元/月 | 日常使用 |
Pro | 3.2 亿 | 238 元/月 | 高频 AI 开发 |
Max | 6.5 亿 | 468 元/月 | 重度 AI 开发首选 |
支持模型矩阵覆盖 Tencent HY 2.0 Instruct(将于 2026 年 6 月 10 日下线)、Kimi-K2.5、GLM-5.1、GLM-5、MiniMax-M2.7、MiniMax-M2.5(更多模型持续接入中):
档位 | 月度 Token | 价格 |
|---|---|---|
Lite | 3,500 万 | 39 元/月 |
Standard | 1 亿 | 99 元/月 |
Pro | 3.2 亿 | 299 元/月 |
Max | 6.5 亿 | 599 元/月 |
a. 缓存命中和未命中输入、输出 Token 都从套餐内统一抵扣——不会因为命中缓存就单独退还。
b. 不结转下月:套餐到期后剩余 Token 不结转,请在套餐过期前完成续费。
c. 不支持降配,不支持退款:建议先从 Lite 起步验证用量。
d. API Key 限制:Token Plan 个人版仅支持生成 1 个 API Key;通用 Token Plan 与 Hy Token Plan 共用同一 API Key 与调用地址,根据调用时指定的 Model ID 自动从对应套餐中抵扣。
e. 使用边界:Token Plan 仅限在 AI 工具中使用,禁止用于自动化脚本、自定义应用程序后端或任何非交互式批量调用场景。
f. 限购:每个主账号最多同时持有 2 个 Token Plan(1 个通用 + 1 个 Hy)。
实际工程里这两条路径不是二选一,而是"先用 Prompt Cache 把单位成本压下来,再用套餐订阅把月度成本封顶"。
a. 第一步:在按量调用阶段,按照 §三 的五大方法把 Prompt Cache 命中率拉到合理水平。
b. 第二步:跑两到四周,用 TokenHub 控制台"用量统计"看真实月度 Token 消耗。
c. 第三步:按真实数据选合适档位的 Token Plan,把月度账单从波动改为固定。
如果你的负载是"夜间批量分析日志""离线打标历史工单"这类非交互式的,不应该用 Token Plan,而是走"批量任务场景"按量计费——GLM-5、GLM-5.1 在批量任务场景的价格通常为在线推理价格的 ~50%(详见产品资料 §8.5)。
a. 想验证 Prompt Cache 效果:领取新人 100 万免费 Tokens 体验包 https://cloud.tencent.com/document/product/1823/130053,挑 Hy3 preview 或 DeepSeek-V4-Flash 这两款带 Cache 缓存且价格友好的模型先试。
b. 想直接锁定月度成本:去 Token Plan 活动页 https://cloud.tencent.com/act/pro/tokenplan 选合适档位。
c. 团队多人共用:参考 Token Plan 企业版概览 https://cloud.tencent.com/document/product/1823/130060。
Agent 调用 Token 消耗高,不是因为模型不够好,而是工作模式天然就重。Prompt Cache 解决"每次调用更便宜",套餐订阅解决"每月总账单更可预期"。这两条路径都写在产品资料里、都能在控制台直接看到效果,是开发者今天可以立刻落地的两个动作。
更多产品信息见 TokenHub 产品介绍页 https://cloud.tencent.com/product/tokenhub。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。