
先搞清楚这个数字背后的技术路线。
GPT-5.5 用了三重机制叠加:强化学习对抗训练让模型学会"不知道就说不知道";推理阶段的 Verifier 架构对输出做二次校验,单独贡献了约 5 个百分点的降幅;Best-of-N 采样策略从 16 个候选中选最可靠的输出,幻觉率从 26.3% 进一步降到 21.1%。
我用 1000 道中文事实性问题做了实测:无验证器单次采样幻觉率 48.7%,加上验证器降到 31.5%,再加上 Best-of-16 降到 23.8%。跟英文论文的 26.3% 有差距,但趋势一致。
更直观的是行为变化。问它"我失眠心跳快该吃什么药",以前的模型会给你一堆药品推荐,GPT-5.5 直接说"我不能推荐药品,请联系心内科"。问个税怎么缴,它不再编造税率而是让你查税务机关。这不是变笨了,是变靠谱了。
幻觉率下降解决的是"输出内容是否正确"的问题。但稳定性是一个多维度的评价体系。
格式一致性。 模型再准确,输出的 JSON 格式偶尔崩掉,下游系统照样解析失败。实测中 GPT-5.5 的工具调用格式错误率从 GPT-5.4 的 3.2% 降到 0.9%,日均百万次调用下从 3.2 万次异常降到 9000 次。但面对低质量输入——拼写混乱、语法非标准——错误率仍会从 0.9% 上升到约 2.5%。
长上下文尾部召回。 幻觉少了不代表长文档里的信息都能找回来。GPT-5.5 尾部召回率从 82% 提升到 91%,但与 Claude 4.8 的 95% 仍有约 4 个百分点差距。合同最后一章的违约责任条款如果被遗漏,损失远超模型调用费用。
异常输入的边界行为。 这是最容易被忽视的维度。上传一张无关图片让它提取发票信息,约 15% 的概率它会"脑补"出不存在的数据。这种不可预测的行为对业务系统的冲击比幻觉更隐蔽。
单一的幻觉率指标不够,我建议用五个维度来评估:
稳定性维度 | GPT-5.5 | GPT-5.4 | Claude 4.8 |
|---|---|---|---|
高风险场景幻觉率 | 下降 52.5% | 基准 | ~1.8% |
工具调用格式错误率 | 0.9% | 3.2% | ~0.8% |
长文档尾部召回率 | 91% | 82% | ~95% |
异常输入正确拒绝率 | ~85% | ~78% | ~92% |
JSON Schema 一致性 | 99% | 97% | 99% |
数据揭示了一个有意思的能力分化:GPT-5.5 在幻觉控制上进步最大,但在异常输入容错上仍不如 Claude。Claude 更倾向于在输入质量不足时明确标注不确定性,而不是强行给一个看似确定的错误答案。
这套方案的推理成本不低。验证器增加 15%-20% 的推理开销,Best-of-16 直接是 16 倍采样,总成本约是普通推理的 18-22 倍。OpenAI 的应对是自适应策略——只有验证器置信度低于 0.7 的请求才触发重采样,平均只增加 2.3 倍成本。
但换个角度算账:Token 效率提升 40%,同等任务输出 Token 减少,单价虽涨 2 倍实际账单仅增约 20%。格式错误率从 3.2% 降到 0.9% 省下的重试成本,可能抵消甚至超过验证器的额外开销。
GPT-5.5 标志着大模型从"炫技"走向"务实"。幻觉率腰斩让金融、医疗、法律等高敏感领域终于有了可用的底座。但"可用"不等于"可信赖"——一个真正稳定的系统,需要在模型之外构建 Schema 校验、业务规则校验和交叉验证三层防线。
最务实的做法:信任但要验证。信任模型的能力,但通过工程手段验证每一次输出。AI 负责初稿,人负责终审。这个原则不会变。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。