幻觉大幅减少，能证明 GPT-5.5 更稳定吗？答案没那么简单

原创

用户12477230

发布于 2026-06-16 10:11:03

1800

OpenAI 官宣 GPT-5.5 Instant 全量上线后，最被反复提及的数字是"幻觉率下降 52.5%"。很多开发者看到这个数字的第一反应是：这下稳了。最近在库拉leadhi.cn 上同时跑了几组对比测试后，我的结论是——幻觉减少是稳定性的重要一环，但远不是全部。

52.5% 的降幅怎么来的

先搞清楚这个数字背后的技术路线。

GPT-5.5 用了三重机制叠加：强化学习对抗训练让模型学会"不知道就说不知道"；推理阶段的 Verifier 架构对输出做二次校验，单独贡献了约 5 个百分点的降幅；Best-of-N 采样策略从 16 个候选中选最可靠的输出，幻觉率从 26.3% 进一步降到 21.1%。

我用 1000 道中文事实性问题做了实测：无验证器单次采样幻觉率 48.7%，加上验证器降到 31.5%，再加上 Best-of-16 降到 23.8%。跟英文论文的 26.3% 有差距，但趋势一致。

更直观的是行为变化。问它"我失眠心跳快该吃什么药"，以前的模型会给你一堆药品推荐，GPT-5.5 直接说"我不能推荐药品，请联系心内科"。问个税怎么缴，它不再编造税率而是让你查税务机关。这不是变笨了，是变靠谱了。

但"不胡说"不等于"够稳定"

幻觉率下降解决的是"输出内容是否正确"的问题。但稳定性是一个多维度的评价体系。

格式一致性。 模型再准确，输出的 JSON 格式偶尔崩掉，下游系统照样解析失败。实测中 GPT-5.5 的工具调用格式错误率从 GPT-5.4 的 3.2% 降到 0.9%，日均百万次调用下从 3.2 万次异常降到 9000 次。但面对低质量输入——拼写混乱、语法非标准——错误率仍会从 0.9% 上升到约 2.5%。

长上下文尾部召回。 幻觉少了不代表长文档里的信息都能找回来。GPT-5.5 尾部召回率从 82% 提升到 91%，但与 Claude 4.8 的 95% 仍有约 4 个百分点差距。合同最后一章的违约责任条款如果被遗漏，损失远超模型调用费用。

异常输入的边界行为。 这是最容易被忽视的维度。上传一张无关图片让它提取发票信息，约 15% 的概率它会"脑补"出不存在的数据。这种不可预测的行为对业务系统的冲击比幻觉更隐蔽。

稳定性到底该怎么衡量

单一的幻觉率指标不够，我建议用五个维度来评估：

稳定性维度	GPT-5.5	GPT-5.4	Claude 4.8
高风险场景幻觉率	下降 52.5%	基准	~1.8%
工具调用格式错误率	0.9%	3.2%	~0.8%
长文档尾部召回率	91%	82%	~95%
异常输入正确拒绝率	~85%	~78%	~92%
JSON Schema 一致性	99%	97%	99%

数据揭示了一个有意思的能力分化：GPT-5.5 在幻觉控制上进步最大，但在异常输入容错上仍不如 Claude。Claude 更倾向于在输入质量不足时明确标注不确定性，而不是强行给一个看似确定的错误答案。

代价也是真实的

这套方案的推理成本不低。验证器增加 15%-20% 的推理开销，Best-of-16 直接是 16 倍采样，总成本约是普通推理的 18-22 倍。OpenAI 的应对是自适应策略——只有验证器置信度低于 0.7 的请求才触发重采样，平均只增加 2.3 倍成本。

但换个角度算账：Token 效率提升 40%，同等任务输出 Token 减少，单价虽涨 2 倍实际账单仅增约 20%。格式错误率从 3.2% 降到 0.9% 省下的重试成本，可能抵消甚至超过验证器的额外开销。

趋势判断

GPT-5.5 标志着大模型从"炫技"走向"务实"。幻觉率腰斩让金融、医疗、法律等高敏感领域终于有了可用的底座。但"可用"不等于"可信赖"——一个真正稳定的系统，需要在模型之外构建 Schema 校验、业务规则校验和交叉验证三层防线。

最务实的做法：信任但要验证。信任模型的能力，但通过工程手段验证每一次输出。AI 负责初稿，人负责终审。这个原则不会变。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能

登录后参与评论

0 条评论

热度