Claude Opus 4.8 vs GPT-5.5，到底该用谁？

程序视点

发布于 2026-06-01 15:59:25

3120

大家好！欢迎来到程序视点，我是你们的老朋友.安戈👋

最近刷AI相关的新闻，满屏都是 laude Opus 4.8。我第一反应不是「又出新模型了」，而是：4.7 才出来多久啊？

Anthropic 以前发版，Sonnet、Haiku 动不动隔好几个月。这次这么急，说明 4.7 的口碑，Anthropic他们自己也收到了。

不少开发者吐槽过：Opus 4.7注释写得比代码还长、工具调用不稳、复杂任务里爱自作主张。OpenAI、Google 那边又在编程 Agent 上猛推，Anthropic 没法慢慢磨。

因此，Claude Opus 4.8 的定位很直白——不是换架构的大改，是把该补的短板补上。

需要Claude优惠激活的读者朋友，可以关注微信公众号【程序视点】，回复claude，了解最新Claude Max 5x/20x优惠激活！

目前最新的Cursor版本也已经支持使用Opus 4.8模型了。需要Cursor的读者朋友，也可以联系我们获取优惠！

官方数据我帮你们捋了一遍!

SWE-Bench Pro 编程 69.2%，比 4.7 高近 5 个点，也压过 GPT-5.5 和 Gemini 3.1 Pro。Computer Use、知识工作、金融分析几项，基本都在前面。

唯一丢分项是 Terminal-Bench 终端编程，GPT-5.5 78.2%，Opus 4.8 大概 74%。Anthropic 没藏着，发布材料里写得很清楚——这点我倒是挺服。

但说实话，跑分看看就行。真正让我感兴趣的，是下面两件事。

大模型老毛病你们都懂：证据不够也敢拍胸脯，代码有坑也当没看见。

Claude Opus 4.8 在这块下了功夫。官方说，代码缺陷悄悄溜过去的概率，降到 4.7 的四分之一。

Devin 的 CEO 用过之后说，工具调用干净多了，注释啰嗦的毛病也好了。投资圈有人反馈，它会主动提醒你输入输出哪里有问题。

对齐测试里，「不当行为」分数从 2.48 降到 1.83，接近内部 Mythos 预览版。模型变强还能变「乖」，比多考几分难多了。进生产环境，这种能力比炫技实在。

这次最狠的功能叫 Dynamic Workflows(动态工作流)。Claude Code 里一次会话能并行调度几百个子 Agent——规划、分工、执行、自检、汇总，一条龙。

以前几十万行代码的库迁移，你得拆成无数小任务反复喂；现在理论上可以一口气扔给它。官方拿 Bun 从 Zig 迁 Rust 举例：75 万行代码、测试通过率 99.8%、11 天搞定。

听着很爽，但心里要有数：能力越强，账单越厚。Enterprise、Team、Max 用户先用。

另外加了思考强度调节：默认高档，难题可以拉到 extra 或 max；想省 token 就调低。Messages API 也更新了，Agent 跑到一半能改 system 指令，还不打断 prompt cache——做复杂 Agent 的兄弟会喜欢。

常规价还是输入 5/百万token，输出 25/百万token。Fast 模式比上一代便宜约 3 倍。Databricks 那边有人测过，agentic 任务上单 token 成本比 4.7 低 61%。

能力涨了，标价不动，跑起来还更省——Anthropic 这次打的是效率牌，不是「我又是最强」。

Anthropic 这次似乎没有把重点放在冲击排行榜，而是强调 Token 效率和真实工作流。

当 Opus 4.8 与 GPT-5.5 能力已非常接近、「谁更聪明」难以简单区分时，真正的问题变成：你准备用它来做什么。