
Hy3 preview 是腾讯 2026 年 4 月最新自研混元模型,在 TokenHub 上原生支持 256K 上下文、Cache 缓存、结构化输出、深度思考与 Function Calling 五项关键能力。本文逐项拆解能力规格、价格档位与适用场景,并附上 Hy Token Plan 的接入路径。
打开 TokenHub 模型规格表,Hy3 preview 这一行占据了主推位置。把完整字段抓出来:
维度 | Hy3 preview |
|---|---|
调用参数(Model ID) | hy3-preview |
架构 | 295B/21B 激活的 MoE |
上下文窗口 | 256k |
最大输入 | 192k |
最大输出 | 128k |
深度思考 | 支持(交错式思考) |
结构化输出 | 支持 |
Function Calling | 支持 |
Cache 缓存 | 支持 |
数据来源:TokenHub 产品规格 §7.1。
256K 上下文、Cache 缓存、结构化输出——这三项能力放在一起讲,是因为它们正好覆盖了 LLM 应用最常被卡住的三个工程瓶颈:
a. 上下文不够长:长文档读不进、多轮对话装不下
b. 调用太贵:高频固定模板每次重复算钱
c. 输出难解析:业务侧总要写一堆容错代码处理自然语言
Hy3 preview 在这三点上同时给出了答案。下面分别拆开讲。
按 1.8 中文字符 ≈ 1 Token 估算,256k 大约能装下 14 万中文字符。直观对照:
a. 一本 10~15 万字的中等长度小说
b. 一份 30~50 个核心源文件的中型项目代码集
c. 一份完整的客户合同 + 历史邮件往来 + 内部备忘
d. 数十份产品文档拼接而成的私域知识库
长上下文最大价值不在"能装多少",而在"不需要做切片"。短上下文模型逼着团队写 RAG、写 chunking、写 reranker,整套流水线的工程复杂度极高。256K 让很多场景可以直接"喂全文",把工程链路压扁。
192k 输入 + 128k 输出的设计对智能体和长文生成尤其友好:你可以塞 192k 的上下文进去,让模型一次性写出 128k 字的报告或代码,单次对话即可完成。
Hy3 preview 的价格按输入长度分三档:
输入长度 | 推理输入(元/百万 tokens) | 推理输出(元/百万 tokens) | 缓存命中(元/百万 tokens) |
|---|---|---|---|
(0, 16k) | 1.2 | 4 | 0.4 |
[16k, 32k) | 1.6 | 6.4 | 0.6 |
[32k+) | 2 | 8 | 0.8 |
数据来源:TokenHub 价格 §8.2。
每一档下,缓存命中价都是常规输入价的 1/3。换句话说,把命中率打上去,等于把输入侧账单按比例拉低。
TokenHub 官方推荐用两个字段配合提升命中率:
a. prompt_cache_key:请求体字段,赋值为 conversation_id(不是 session_id)
b. X-Session-ID:HTTP Header,把同一用户连续请求路由到同一推理实例
完整方法见官方 Prompt Cache 命中率提升指南:https://cloud.tencent.com/document/product/1823/131410。
a. 长固定 system prompt(角色设定、规则约束、知识库片段)
b. 多轮对话(同一会话内的历史消息)
c. 重复模板任务(每次只换变量参数)
这三类场景下,Hy3 preview 的实际成本可以非常接近"只为输出付费"的极限。
按指定格式(如 JSON Schema)输出结构化数据,便于下游程序解析。模型不再返回一段自然语言段落,而是直接吐出可被代码消费的 JSON。
a. 信息抽取:从一段非结构化文本里抽出结构化字段
b. 表单填充:根据用户描述自动生成结构化表单
c. 多智能体协作:上游智能体的输出直接喂给下游
d. 报告生成:把分析结果按章节字段组织
Hy3 preview 同时支持深度思考、结构化输出、Function Calling 三能力。这意味着你可以让模型:
a. 先深度思考用户请求的意图
b. 调用合适的工具(Function Calling)
c. 把工具返回结果按 Schema 整理成结构化输出
这套组合拳是构建生产级智能体应用的"三件套"。
合同审查、研报阅读、医疗病历解析。一次性喂入完整文档,配合 Cache 缓存复用 system prompt 与文档前缀,长对话依然成本可控。
深度思考 + 结构化输出 + Function Calling + Cache 缓存四能力齐备,是构建复杂 Agent 工作流的理想底座。
256k 上下文足够装入跨文件的项目代码,结构化输出让模型直接给出 patch 格式或 JSON Diff,工程链路顺畅。
固定 system prompt + 知识库片段在 Cache 命中后近似免费,配合 Function Calling 实现知识检索的自主调度。
Hy3 preview 在新人免费体验包中赠送 100 万 Tokens,有效期 90 天。每个主账号一次性领取,免费额度优先消耗,免费用尽后若未开启后付费则服务自动停止,不会产生意料外账单。
领取方式:登录 TokenHub 控制台 → 模型广场 → 右上角"新用户福利免费体验" → 勾选 Hy3 preview → 立即领取。
验证完业务可行性后,需要稳定持续调用 Hy3 preview 的团队,Hy Token Plan 个人版是更划算的选择:
套餐档位 | 月度 Token 限额 | 价格 |
|---|---|---|
体验套餐 Lite | 3,500 万 Tokens | 28 元/月 |
基础套餐 Standard | 1 亿 Tokens | 78 元/月 |
进阶套餐 Pro | 3.2 亿 Tokens | 238 元/月 |
专业套餐 Max | 6.5 亿 Tokens | 468 元/月 |
数据来源:TokenHub 套餐 §9.2。
Hy Token Plan 仅支持 Hy3 preview 这一款模型,针对其工作负载做了专项设计。同档位价格比通用 Token Plan 更优惠(如 Lite 28 元 vs 39 元、Max 468 元 vs 599 元)。
需要注意几条规则:套餐到期后剩余 Token 不结转、不支持退款、支持升配但不支持降配,每个主账号最多持有 1 个 Hy Token Plan + 1 个通用 Token Plan。
from openai import OpenAI
client = OpenAI(
base_url="https://tokenhub.tencentmaas.com/v1",
api_key="YOUR_API_KEY"
)
response = client.chat.completions.create(
model="hy3-preview",
messages=[
{"role": "system", "content": "你是一个长文档分析助手"},
{"role": "user", "content": "请基于以下合同提取关键条款……"}
],
extra_body={"prompt_cache_key": "conv-6900xxxx"},
extra_headers={"X-Session-ID": "session-abc123"}
)完整调用规则、限流策略、响应格式说明在模型详情页:https://cloud.tencent.com/document/product/1823/130051。
256K 上下文解决长文场景的工程复杂度,Cache 缓存解决高频固定模板的成本问题,结构化输出解决业务对接的解析成本。Hy3 preview 把这三项关键能力以及深度思考、Function Calling 一起原生集成,是当下做智能体与长文档应用最值得评估的混元模型。立即在 Token Plan 活动页订阅 Hy Token Plan:https://cloud.tencent.com/act/pro/tokenplan。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。