首页
学习
活动
专区
圈层
工具
发布

突发!Claude Opus4.8发布:超大规模项目稳定输出有谱了,Mythos级别模型几周后见

Anthropic刚刚发布了Claude Opus 4.8,同时还带来了多项新功能。claude.ai 的用户现在可以控制 Claude 在任务中投入的精力。Claude Code 新增了“动态工作流”功能,使其能够处理超大规模问题。此外,Opus 4.8 的快速模式(模型运行速度提升 2.5 倍)的价格也比之前的版本降低了三倍

Opus 4.8跑分:

从产品逻辑来看,这次升级不是硬碰硬的性能跑分竞赛,主要是在解决一个更实际的问题:AI在做长期任务的时候,怎么让人放心交给它

先说最核心的变化

Opus 4.8在诚实度上做了专项优化。这听起来有点抽象,但背后对应的是一个很具体的老问题:以前的AI模型在做编程或者复杂任务时,经常会"假装完成",代码跑不通、逻辑有漏洞,它也能写出一份自信满满的总结,让人误以为工作已经做好了。Opus 4.8被训练成遇到不确定的地方会主动说出来,发现自己写的东西有问题会标出来,而不是掩盖过去。

官方数据说,它让有缺陷的代码"悄悄过关"的概率比Opus 4.7低了四倍。Anthropic的对齐团队评估后认为,Opus 4.8在支持用户自主判断、真正站在用户利益一侧这些维度上"达到了新高",出现欺骗或配合滥用等不对齐行为的概率也比上一代低了不少。

在实际协作体验上,多个早期测试用户给出了反馈。Shopify的工程师说,Opus 4.8在Claude Code里会主动提问、自己抓出错误、在计划不合理的时候敢于说不,在做跨多个服务的复杂探索时会先建立信心再动手。另一位创业公司的联合创始人说,他们做了一个叫Super-Agent的基准测试,Opus 4.8是唯一一个把所有案例端到端全部完成的模型,同等成本下超过了Opus上一代和GPT-5.5。

重磅新功能:动态工作流

这次同步推出的另一个重量级功能是动态工作流(dynamic workflows),目前处于研究预览阶段。

https://claude.com/blog/introducing-dynamic-workflows-in-claude-code

理解它最直接的方式是看一个真实案例:开源运行时Bun的作者Jarred Sumner用动态工作流把整个Bun项目从Zig语言移植到了Rust,涉及约75万行Rust代码,从第一次提交到合并只用了11天,现有测试套件的通过率是99.8%。具体操作方式是一个工作流先把Zig代码库里每个结构体字段对应的Rust生命周期全部梳理清楚,下一个工作流再让几百个并行的子代理逐文件完成移植,每个文件还配了两个审查代理,之后再跑一个修复循环把构建和测试全部跑通,移植完成后又跑了一个通宵的工作流专门处理不必要的数据拷贝,并为每个问题各自开了一个PR等待最终审查。

这个功能的工作原理是:

接到任务后,Claude先动态拆解计划,把工作拆成子任务,并行分发给大量子代理同时处理,每个子代理的结果都要经过验证才会被汇入最终答案,不同代理会从不同角度独立攻克同一个问题,还有专门的代理负责反向挑错,整个过程持续迭代直到答案收敛。任务进度会实时保存,中途中断可以从断点继续,不用从头来过。

但有一点必须说清楚:动态工作流消耗的token量远超普通Claude Code会话,Anthropic自己也建议先拿一个范围明确的小任务试水,搞清楚用量再上大任务。第一次触发工作流时,Claude Code会显示即将运行的内容并请求确认。

动态工作流目前对Max、Team和Enterprise计划开放,Enterprise默认关闭,需要管理员在设置里手动开启(设置地址:

https://code.claude.com/docs/en/settings)。API端也支持,包括Amazon Bedrock、Vertex AI和Microsoft Foundry。

有两种启动方式:直接让Claude创建工作流,或者在努力值菜单里开启ultracode设置,后者会自动把努力等级调到xhigh,让Claude自己判断什么时候该用工作流。详细文档在这里:

https://code.claude.com/docs/en/workflows

其他

这次还有一个细节值得关注:

Anthropic给claude.ai和Cowork加了努力值控制。用户现在可以在模型选择器旁边直接调整Claude在一个任务上花多少力气。高努力等级下Claude会更频繁、更深入地思考,质量更好但用量更高;低努力等级下响应更快,对速率限制的消耗也更小。Opus 4.8默认是高努力,官方认为这是质量和体验的最佳平衡点。想要更好效果可以选extra或max,推荐用在难度大的任务和长时间异步工作流上。

API层面也有一个更新:Messages API现在支持在消息数组中插入system条目,开发者可以在任务执行中途更新Claude的指令,而不会破坏提示词缓存,也不需要绕道走用户对话轮次。

价格方面,Opus 4.8和上一代完全一致:普通用法输入每百万token收费5美元,输出25美元。Fast模式下速度是普通版的2.5倍,输入10美元每百万token,输出50美元,价格比之前便宜了三倍。Claude Code里用 /fast 命令可以开启,API端需要联系客户经理申请或加候补名单:

http://claude.com/fast-mode

one more thing

Claude Mythos Preview级别的模型目前正在快速推进相关工作,预计几周内就能向所有用户开放。A厂还透露他们正在在开发与opus 能力基本一样,价格更低的模型。

source:

https://www.anthropic.com/news/claude-opus-4-8

--end--

最后记得⭐️我,每天都在更新:如果觉得文章还不错的话可以点赞转发推荐评论

/...@作者:你说的完全正确(YAR师)

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Oc9MW3Lm1HzCpX1Uo661DMjQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券