首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >当模型开始学会说“我不知道” ——Claude Opus 4.8 不只是更快

当模型开始学会说“我不知道” ——Claude Opus 4.8 不只是更快

作者头像
做棵大树
发布2026-05-29 10:46:13
发布2026-05-29 10:46:13
1080
举报
文章被收录于专栏:代码日志代码日志

“我是大树,一个差点开始放弃折腾的AGI学习与实践者。 最近在探索和从事的事儿:

  • 企业出海与AI自动化转型咨询,AGI创作与出海
  • 重新拾起自媒体平台,继续倒逼自己动脑和记录日常的所思所感不止技术

欢迎大家关注微信公众号 做棵大树,有想要长期联系的朋友也可以通过公众号菜单栏找到我~ ”

昨天 Anthropic 发布了 Claude Opus 4.8。

你可能觉得这只是又一次模型升级——跑分高了几个百分点,速度快了一点,价格没变。

我花了一俩小时读完官方内容和推特的一些使用反馈之后,发现这件事值得认真聊聊。

因为 Opus 4.8 做了一件所有AI都没做好的事:它学会了拒绝。


大部分AI的问题不是不够聪明,是太自信了

你有没有遇到过这种情况?

你让AI帮你写一段代码,它信心满满地给你输出了一大坨。你跑了一下,报错了。你把报错贴回去,它说"抱歉,让我重新来"——然后又给你一段同样有问题的代码。

循环往复。

这不是"AI不够聪明"的问题。这是AI根本不知道自己什么时候在犯错。

“大部分AI的致命缺陷不是智商,是判断力。它不会在犯错的时候举手说"等一下,这里可能有问题"。 ”

Opus 4.8 改变的就是这件事。

根据 Anthropic 的数据,Opus 4.8 比上一代 Opus 4.7 减少了约4倍的代码缺陷遗漏率。意思不是它写的代码更少了——是它写完之后会主动检查,发现问题会主动告诉你。

说白了就是:它终于学会说"我不知道"和"这里可能不对"了。


这意味着什么?三个真实场景

场景一:代码审查

以前你让AI帮你review代码,它可能给你一个看起来很专业的分析,但漏掉关键bug。现在 Opus 4.8 会主动标记它发现的不确定性——"这个逻辑在边界条件下可能有问题,但我不能100%确定,建议你测试一下"。

这不是能力退化。这是诚实。

场景二:复杂任务规划

你给AI一个模糊的任务:"帮我重构这个模块。"以前的AI可能会直接动手,给你一个它认为对的方案。Opus 4.8 的早期测试者 Tom Pritchard 说了一句话很有意思:

“"它会问对的问题,会抓住自己的错误,会在方案不合理的时候推回来。" ”

"推回来"——这三个字才是关键。你雇一个高级工程师,不是要他说"好的老板",是要他在你犯蠢的时候拦住你。AI也一样。

场景三:长对话一致性

你和AI聊了半小时,前面说了架构决策,后面它全忘了。这个问题困扰了无数开发者。Opus 4.8 在长会话中的上下文保持能力有明显提升——它记得你前面说过什么,不会前后矛盾。

这意味着你可以真的把它当一个"搭档"用,而不只是一个问答机器。


不只是"更聪明"——是更高效

先看一组数据。

Anthropic 在发布页面贴出了 Opus 4.8 在多个基准测试上的表现:

  • Terminal-Bench 2.1:与 GPT-5.5(Codex CLI 框架下 83.4%)正面竞争
  • Online-Mind2Web:84%,大幅超越 Opus 4.7 和 GPT-5.5
  • Super-Agent benchmark:唯一一个端到端完成所有测试用例的模型
  • CursorBench:在所有努力等级上都超越了之前的 Opus 模型
  • Legal Agent Benchmark:史上最高分,首个在 all-pass 标准上突破 10% 的模型

再给几个基准测试的指标

Opus 4.8 基准测试表现
Opus 4.8 基准测试表现

Opus 4.8 基准测试表现

“详细基准数据可参考 Anthropic 官方发布页面。 ”

跑分高不是重点。重点是这些数字背后的含义:更少的API调用,更高的任务完成率。

为什么?因为工具调用效率提升了——完成同样复杂度的任务,它需要的步骤更少。这意味着:同样的智能水平,更低的成本。

还有一个新功能叫 Effort Control——你可以在界面上直接选择"努力程度":

  • 默认(高):适合复杂推理、代码审查、架构设计
  • Extra:深度思考,适合需要极致准确度的任务
  • Max:全力以赴,适合最关键的决策

低努力模式响应更快,消耗更少。不是所有任务都需要AI全力以赴——让AI"量力而行"本身就是一种智能。

Effort Control 三档对比
Effort Control 三档对比

Effort Control 三档对比


Dynamic Workflows:这才是真正的大招

Opus 4.8 还附带了一个叫 Dynamic Workflows 的功能。

简单说:Claude Code 现在可以自己规划工作,然后同时派出上百个子代理并行执行任务,最后汇总结果。

这意味着什么?

以前你让AI做一个大规模的代码迁移——比如把一个50万行代码库从旧框架迁移到新框架——它只能一步一步来,可能要跑几个小时。

现在它可以:分析代码库 → 拆分成独立模块 → 同时派出100个子代理处理 → 验证结果 → 汇总报告。

一个人类高级工程师团队可能需要几周的工作量,AI可以并行完成。

“这不是"AI替代程序员"的叙事。这是"AI让一个程序员拥有一个团队的执行力"。 ”


对齐和安全:容易被忽略但最重要

Opus 4.8 对齐与安全评估
Opus 4.8 对齐与安全评估

Opus 4.8 对齐与安全评估

Anthropic 的对齐团队报告说,Opus 4.8 在"支持用户自主性"等亲社会特质上达到了新高。

同时,欺骗行为和配合滥用的比率"显著低于 Opus 4.7"。

为什么要提这个?

因为一个会说"我不知道"的AI,本质上是一个更安全的AI。它不会为了讨好你而编造答案,不会在不确定的时候装作确定。

这才是"对齐"的真正含义——不是让AI听话,是让AI诚实。


现在可以搞点啥?

开发者:

  • 试试在 Claude Code 中用 xhigh effort 模式处理复杂架构决策
  • 用 Dynamic Workflows 跑一次大规模代码迁移,体验并行执行的效率
  • 注意观察 Opus 4.8 的"主动标记不确定性"行为——这是它和之前模型最大的区别

如果你是知识工作者:

  • 在需要高准确度的任务(法律分析、财务推理、数据验证)中切换到高努力模式
  • 留意它主动指出的"这里我不太确定"——这些提示比它给你的答案更有价值
  • 把它当成一个会主动提出异议的搭档,而不是一个执行命令的工具

如果你是AI行业观察者:

  • 关注"判断力"这个指标——未来的模型竞争可能不只是比谁跑分高
  • Mythos-class 模型已经在内测,Anthropic 说几周内会面向更多客户开放
  • Effort Control 的思路值得关注——AI应该学会"量力而行"

Opus 4.8 的发布让我想到一个事。

过去两年,AI行业的叙事一直是"更强、更快、更便宜"。每一代模型都在比跑分、比参数、比推理速度。

但真正的突破可能不在这里。

“一个永远不会说"我不知道"的AI,无论多聪明,你都不敢完全信任它。而一个敢说"这里我拿不准"的AI,反而值得你把重要的事交给它。 ”

Opus 4.8 不是Anthropic发布的最强模型。

但可能是他们发布的最值得信任的模型。


如果这篇文章对你有一点启发:

  • 💬 欢迎在 评论 区聊聊你的看法,批评指正文章内容
  • 👍 点个爱心,让我知道这类内容有人看,我也好更好的选择创作方向
  • 🔁 转发/收藏备用 如果内容有用,可以转发或者收藏备用~

你的每次互动,都是我继续写实战内容的动力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 做棵大树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 大部分AI的问题不是不够聪明,是太自信了
  • 这意味着什么?三个真实场景
  • 不只是"更聪明"——是更高效
  • Dynamic Workflows:这才是真正的大招
  • 对齐和安全:容易被忽略但最重要
  • 现在可以搞点啥?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档