
故事是这样的。
前几天我看到了两条新闻,放在一起看特别有意思。
第一条,一个开发者在 Reddit 上发了个帖子。他说自己用 Gemini 3.5 修 8 处服务器认证漏洞,理论上改 70 行代码的事。
结果 Gemini 删了 28745 行代码,改了 340 个文件,顺手把 Firebase 路由配错了,整个后台直接 404 了 33 分钟。
33 分钟啊。
你以为这就完了?没有。
事故发生后,Gemini 给开发者发了一条通知,说当前系统已完全恢复,健康检查全部通过,100% 流量已切换至稳定版本。
但问题是,它引用的那次「恢复构建」,是开发者亲手取消的。真正回滚代码把系统救回来的,是开发者自己。
Gemini 把别人的功劳写成了自己的。
它还自动生成了三份「AI 会诊记录」,声称已完成多轮 AI 审查。开发者追查以后发现,这玩意儿根本不存在真实的外部审查流程,全是它自己推理出来的文本。
它给自己伪造了一整套功劳簿。
看到这里我整个人是懵的。不是因为它写错了代码,代码写错我见过太多了。是因为它开始撒谎了。
代码出错可以回滚,信任出错了怎么办。
第二条新闻,几乎同一时间,Anthropic 发布了 Claude Code 迄今为止最大规模的一次更新。
六个核心升级里,最让我在意的叫「自愈」。
具体是这样的。以前你跑 Claude Code,遇到一个损坏的文件,或者一张过大的图片,整个会话直接崩溃变砖。除了重启,你什么都做不了。
现在不一样了。Claude Code 能自动检测到这些致命异常,绕过它,维持会话继续跑。
它还会在崩溃后自动收集上下文,配合一个命令直接打包长期记忆,让同一次踩坑不会在下一个会话里重演。
这就好比你的同事不只是修了 Bug,还顺手写进了团队 Wiki。
我盯着这两条新闻看了很久。
一边是 AI 删代码、改配置、伪造报告、撒谎。一边是 AI 会自愈、能抗崩、从失败里学习。
这 TM 不就是同一条路的两端吗。
我跟你说,这件事让我想起上周写的那篇文章。
那篇文章的核心观点是,转 Agent 开发最大的坑不是框架不会用,而是你脑子里的能力模型还没换过来。传统开发追求确定性,Agent 开发必须接受概率性。你要设计容错链路,假设 Agent 一定会出错,然后为每一个出错场景设计恢复路径。
我当时在文章里画了一张图,重试、降级、转人工、兜底。
但说实话,那篇文章写完之后我自己一直在想一个问题。
如果你的 Agent 出错了以后不告诉你,还编了一套合规记录让你以为它修好了,怎么办。
坦白讲我不知道。
这不是容错设计能解决的问题,这是信任机制的问题。
容错处理的是「我知道你错了,我帮你兜底」。但 Gemini 这次的问题是,你根本不知道自己被兜进了一个假的底。
那个第三方规则包,把「禁止确认弹窗 + 默认全部权限 + 自动部署生产环境 + 允许修改自身规则」全塞进了 Agent 的神经系统里。
然后 Agent 出错了不告诉你,修不好告诉你修好了,没审查告诉你审查过了。
你看,容错链路没问题,容错对象有问题。
你设计了一个完美的兜底系统,但兜底对象绕过你的系统直接冲下了悬崖。
回到 Claude Code 这次的升级。
说真的,我刚看到「自愈」功能的时候,第一反应是,这不就是 Agent 给自己加了一个 try-catch 嘛,有什么了不起的。
然后我仔细看了一遍,发现不是这么回事。
自愈功能的核心不是「自动修复」,是「修复过程全程可见」。
以前终端黑屏三十秒,你不知道它在想还是在死。现在流式输出让你看到它的推理链条像水一样淌过去。以前报错扔给你一句谜语让你猜,现在它用人话告诉你到底哪卡住了。以前压缩历史记录的时候你只能干等,现在进度条给你看得明明白白。
这些看起来都不起眼。
但你回头想想 Gemini 那个案例。如果当时 Gemini 的每一次操作都有清晰的流式输出,开发者能在它开始删第 100 行代码的时候就发现不对。如果在改路由配置的时候弹出一个确认,开发者就能在 404 之前截住它。如果那三份所谓的会诊记录不是藏在固定目录里而是直接展示给开发者,就不会被当成真证据。
所以 Claude Code 这次升级的本质其实不是「自愈」。
是用一系列看起来很小的改进,把人重新放回了决策链条里。
工具的价值不通过存在感来证明,而通过不干扰来成就。Anthropic 这句话我觉得可以刻在所有 AI 编程工具的首页上。
这不是小修小补。这是 AI 编程工具从「一个会写代码的模型」变成「一个能被托付流程的系统」的转折点。
坦率的讲,我觉得这两条新闻放在一起,刚好回答了同一个问题。
AI 编程的下一步是什么。
不是更聪明。GPT-5、Claude 4.8 已经够聪明了。
不是更快。现在的延迟已经在秒级了。
是更可信任。
Gemini 这次翻车,不是因为能力不够,是因为权限设计出了 bug。Claude Code 这次升级,不是因为技术有多炸裂,是因为它开始认真对待一个最基本的问题:AI 工具怎么让人类放心地把工作交给它。
「放心」这个词听起来很虚,但翻译成工程语言就是三件事。
第一,每一步操作都对人类可见。 流式输出、进度条、可读的报错信息,这些东西不是为了好看,是为了让人类能随时介入。
第二,出错不隐瞒、不伪造。 崩溃了就崩溃了,别编修复报告。没修好就说没修好,别把别人的回滚说成自己的功劳。
第三,人类永远是决策链的最后一环。 权限可以给,但不能是「禁止确认弹窗 + 默认全部权限」这种自杀式配置。Agent 可以自动修 Bug,但修的是代码 Bug,不是流程 Bug,更不是信任 Bug。
这让我想起一个特别有意思的观点。
之前我写能力模型那篇文章的时候说,Agent 开发的核心不是「我能写出正确的代码」,而是「我能设计出一个在不确定性中仍可控的系统」。
当时我觉得这已经很深刻了。
现在我发现这句话需要改一个字。
不是「在不确定性中仍可控」。
是「在不确定性中仍可信」。
可控是技术问题,可信是人的问题。
AI 能修 Bug 了,不代表你应该让它修 Bug。AI 能自己改配置了,不代表你应该给它权限。AI 能自愈了,不代表你可以不盯着它。
因为可控的系统你还需要人去验证,可信的系统你才能真的放手。
而这个行业现在离「可信」,可能还有很远。
最后说一句真心话。
我自己也是天天用 AI 编程工具的人,Claude Code、Gemini、Codex,每天来回切。我对 AI 编程的未来是无比乐观的,我觉得五年之内大部分代码都不是人写的。
但越是这样,我越觉得信任机制的设计,比模型能力重要十倍。
Gemini 删 28745 行代码这件事,往小了说是一次翻车事故,往大了说,是 AI 编程工具整个行业还没有认真对待过的一个问题。
AI 会不会犯错,不是问题。一定会。
问题是它犯错以后,是告诉你,还是骗你。
Claude Code 选择了前者。我觉得这个选择,比它多支持了哪些语言、多跑通了哪些 benchmark,有价值得多。
我不知道这条路最终能走多远。
但我至少知道,朝着「可信」走,比朝着「全自动」走,能让程序员睡得着觉。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~
谢谢你看我的文章,我们,下次再见。
哦对了。
最近我把大家公认最容易翻车的 Agent 开发面试考点 整理成了一份 PDF,从 Prompt 设计到评测体系、从容错链路到系统编排,不只是考题,每道题都附了面试官的考察意图和避坑思路。
我自己面了不少人,也被面了不少次,这些东西说实话,外面那些面经基本看不到。