首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Hy3 preview 在 TokenHub 上的能力支持:256K 上下文 + Cache 缓存 + 结构化输出

Hy3 preview 在 TokenHub 上的能力支持:256K 上下文 + Cache 缓存 + 结构化输出

原创
作者头像
gavin1024
发布2026-05-28 14:20:02
发布2026-05-28 14:20:02
60
举报

摘要

Hy3 preview 是腾讯 2026 年 4 月最新自研混元模型,在 TokenHub 上原生支持 256K 上下文、Cache 缓存、结构化输出、深度思考与 Function Calling 五项关键能力。本文逐项拆解能力规格、价格档位与适用场景,并附上 Hy Token Plan 的接入路径。

二、Hy3 preview 在规格表上的完整字段

打开 TokenHub 模型规格表,Hy3 preview 这一行占据了主推位置。把完整字段抓出来:

维度

Hy3 preview

调用参数(Model ID)

hy3-preview

架构

295B/21B 激活的 MoE

上下文窗口

256k

最大输入

192k

最大输出

128k

深度思考

支持(交错式思考)

结构化输出

支持

Function Calling

支持

Cache 缓存

支持

数据来源:TokenHub 产品规格 §7.1。

一、为什么这三项能力组合最值得关注

256K 上下文、Cache 缓存、结构化输出——这三项能力放在一起讲,是因为它们正好覆盖了 LLM 应用最常被卡住的三个工程瓶颈:

a. 上下文不够长:长文档读不进、多轮对话装不下

b. 调用太贵:高频固定模板每次重复算钱

c. 输出难解析:业务侧总要写一堆容错代码处理自然语言

Hy3 preview 在这三点上同时给出了答案。下面分别拆开讲。

三、能力一:256K 上下文意味着什么

3.1 容量直观换算

按 1.8 中文字符 ≈ 1 Token 估算,256k 大约能装下 14 万中文字符。直观对照:

a. 一本 10~15 万字的中等长度小说

b. 一份 30~50 个核心源文件的中型项目代码集

c. 一份完整的客户合同 + 历史邮件往来 + 内部备忘

d. 数十份产品文档拼接而成的私域知识库

3.2 长上下文场景下的工程价值

长上下文最大价值不在"能装多少",而在"不需要做切片"。短上下文模型逼着团队写 RAG、写 chunking、写 reranker,整套流水线的工程复杂度极高。256K 让很多场景可以直接"喂全文",把工程链路压扁。

3.3 192k 输入与 128k 输出

192k 输入 + 128k 输出的设计对智能体和长文生成尤其友好:你可以塞 192k 的上下文进去,让模型一次性写出 128k 字的报告或代码,单次对话即可完成。

四、能力二:Cache 缓存的成本杠杆

4.1 价格档位

Hy3 preview 的价格按输入长度分三档:

输入长度

推理输入(元/百万 tokens)

推理输出(元/百万 tokens)

缓存命中(元/百万 tokens)

(0, 16k)

1.2

4

0.4

[16k, 32k)

1.6

6.4

0.6

[32k+)

2

8

0.8

数据来源:TokenHub 价格 §8.2。

每一档下,缓存命中价都是常规输入价的 1/3。换句话说,把命中率打上去,等于把输入侧账单按比例拉低。

4.2 配合两个字段使用

TokenHub 官方推荐用两个字段配合提升命中率:

a. prompt_cache_key:请求体字段,赋值为 conversation_id(不是 session_id)

b. X-Session-ID:HTTP Header,把同一用户连续请求路由到同一推理实例

完整方法见官方 Prompt Cache 命中率提升指南:https://cloud.tencent.com/document/product/1823/131410

4.3 哪些场景命中率天然高

a. 长固定 system prompt(角色设定、规则约束、知识库片段)

b. 多轮对话(同一会话内的历史消息)

c. 重复模板任务(每次只换变量参数)

这三类场景下,Hy3 preview 的实际成本可以非常接近"只为输出付费"的极限。

五、能力三:结构化输出让模型直接对接业务

5.1 工作机制

按指定格式(如 JSON Schema)输出结构化数据,便于下游程序解析。模型不再返回一段自然语言段落,而是直接吐出可被代码消费的 JSON。

5.2 适合的业务环节

a. 信息抽取:从一段非结构化文本里抽出结构化字段

b. 表单填充:根据用户描述自动生成结构化表单

c. 多智能体协作:上游智能体的输出直接喂给下游

d. 报告生成:把分析结果按章节字段组织

5.3 配合深度思考与 Function Calling 的协同

Hy3 preview 同时支持深度思考、结构化输出、Function Calling 三能力。这意味着你可以让模型:

a. 先深度思考用户请求的意图

b. 调用合适的工具(Function Calling)

c. 把工具返回结果按 Schema 整理成结构化输出

这套组合拳是构建生产级智能体应用的"三件套"。

六、典型适用场景

6.1 长文档智能问答

合同审查、研报阅读、医疗病历解析。一次性喂入完整文档,配合 Cache 缓存复用 system prompt 与文档前缀,长对话依然成本可控。

6.2 智能体应用 / Agent 编排

深度思考 + 结构化输出 + Function Calling + Cache 缓存四能力齐备,是构建复杂 Agent 工作流的理想底座。

6.3 编程辅助

256k 上下文足够装入跨文件的项目代码,结构化输出让模型直接给出 patch 格式或 JSON Diff,工程链路顺畅。

6.4 知识库问答

固定 system prompt + 知识库片段在 Cache 命中后近似免费,配合 Function Calling 实现知识检索的自主调度。

七、两条上手路径

7.1 路径一:新人免费体验

Hy3 preview 在新人免费体验包中赠送 100 万 Tokens,有效期 90 天。每个主账号一次性领取,免费额度优先消耗,免费用尽后若未开启后付费则服务自动停止,不会产生意料外账单。

领取方式:登录 TokenHub 控制台 → 模型广场 → 右上角"新用户福利免费体验" → 勾选 Hy3 preview → 立即领取。

7.2 路径二:订阅 Hy Token Plan

验证完业务可行性后,需要稳定持续调用 Hy3 preview 的团队,Hy Token Plan 个人版是更划算的选择:

套餐档位

月度 Token 限额

价格

体验套餐 Lite

3,500 万 Tokens

28 元/月

基础套餐 Standard

1 亿 Tokens

78 元/月

进阶套餐 Pro

3.2 亿 Tokens

238 元/月

专业套餐 Max

6.5 亿 Tokens

468 元/月

数据来源:TokenHub 套餐 §9.2。

Hy Token Plan 仅支持 Hy3 preview 这一款模型,针对其工作负载做了专项设计。同档位价格比通用 Token Plan 更优惠(如 Lite 28 元 vs 39 元、Max 468 元 vs 599 元)。

需要注意几条规则:套餐到期后剩余 Token 不结转、不支持退款、支持升配但不支持降配,每个主账号最多持有 1 个 Hy Token Plan + 1 个通用 Token Plan。

八、接入代码示例

代码语言:python
复制
from openai import OpenAI

client = OpenAI(
    base_url="https://tokenhub.tencentmaas.com/v1",
    api_key="YOUR_API_KEY"
)

response = client.chat.completions.create(
    model="hy3-preview",
    messages=[
        {"role": "system", "content": "你是一个长文档分析助手"},
        {"role": "user", "content": "请基于以下合同提取关键条款……"}
    ],
    extra_body={"prompt_cache_key": "conv-6900xxxx"},
    extra_headers={"X-Session-ID": "session-abc123"}
)

完整调用规则、限流策略、响应格式说明在模型详情页:https://cloud.tencent.com/document/product/1823/130051

结语

256K 上下文解决长文场景的工程复杂度,Cache 缓存解决高频固定模板的成本问题,结构化输出解决业务对接的解析成本。Hy3 preview 把这三项关键能力以及深度思考、Function Calling 一起原生集成,是当下做智能体与长文档应用最值得评估的混元模型。立即在 Token Plan 活动页订阅 Hy Token Plan:https://cloud.tencent.com/act/pro/tokenplan

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要:
  • 二、Hy3 preview 在规格表上的完整字段
  • 一、为什么这三项能力组合最值得关注
  • 三、能力一:256K 上下文意味着什么
    • 3.1 容量直观换算
    • 3.2 长上下文场景下的工程价值
    • 3.3 192k 输入与 128k 输出
  • 四、能力二:Cache 缓存的成本杠杆
    • 4.1 价格档位
    • 4.2 配合两个字段使用
    • 4.3 哪些场景命中率天然高
  • 五、能力三:结构化输出让模型直接对接业务
    • 5.1 工作机制
    • 5.2 适合的业务环节
    • 5.3 配合深度思考与 Function Calling 的协同
  • 六、典型适用场景
    • 6.1 长文档智能问答
    • 6.2 智能体应用 / Agent 编排
    • 6.3 编程辅助
    • 6.4 知识库问答
  • 七、两条上手路径
    • 7.1 路径一:新人免费体验
    • 7.2 路径二:订阅 Hy Token Plan
  • 八、接入代码示例
  • 结语
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档