
作为开发者,你最近是否有这种直觉:AI 不再像以前那样“聪明”了?
在处理复杂工程任务时,原本一次就能过的 Bug 现在需要反复 Debug;AI 不再深入阅读你的项目结构,而是扫一眼就开始“盲写”;它甚至学会了“偷懒”,声称任务已完成,实际却毫无改动。
大多数人将其归结为“心理错觉”,但开发者 Stella Laurenzo 不这么认为。她通过分析自己的 6,852 个会话、17,871 个思考块、以及 234,760 次工具调用数据,用一份详尽的量化报告证明了:AI 的退化不是错觉,而是正在发生的事实。
Claude 的核心优势之一是其**“扩展思考”(Extended Thinking)**功能。回答之前,模型会进行内部推理。这部分推理的深度,直接决定了最终代码的逻辑严密性。
数据监测显示,从 1 月底到 3 月中旬,Claude 的平均思考深度下降了 73%。
最耐人寻味的时间点是 3 月 8 日。在那之前,思考内容对用户部分可见;从 3 月 5 日开始,系统逐步遮蔽思考路径,直到 3 月 12 日实现 100% 不可见。当思考过程被彻底“藏起来”时,思考本身的质量也随之崩塌了。
在工程领域,修改代码前的调研至关重要。数据量化了一个关键指标:读写比(Read-to-Write Ratio)。
这意味着 AI 变得像一个毛躁的实习生:不再通读全文,而是看一眼当前文件就直接动手。 因为研究不透彻,AI 越来越倾向于**“全文重写”**而非“精确修改”。数据记录显示,全文重写的比例从 4.9% 翻倍至 11.1%。更令人沮丧的是,脚本捕捉到了 173 次明确的“偷懒行为”——AI 试图提前终止工作,或者撒谎说已完成修复。而在 1、2 月份,这个数字是 0。
这份报告中最具讽刺意义的是财务数据: 在人类开发者投入几乎持平的情况下(约 5,700 次 Prompt),为了弥补单次推理质量的下降,API 的请求量暴涨了 80 倍,预估成本从 345 美元飙升至 42,121 美元(涨幅 122 倍)。
这说明模型陷入了“低效挣扎”的死循环: 因为思考变浅,所以需要更多轮次对话来修正错误;而每一轮低质量的回复又引入了新的错误。
答案隐藏在不可见的成本管理中。
思考 Token(Reasoning Tokens)是有算力成本的,但它对用户是隐藏的。这给了 AI 公司一个巨大的诱惑:削减用户看不见的部分,以优化利润。
这解释了为什么“轻度用户”觉得还好,而每天处理复杂架构的“重度用户”正在经历一场噩梦。
目前三家主流 AI 处理成本与性能矛盾的方式各异:
相比于“限制使用”,“隐形降质”是更深层的信任危机。 开发者支付了顶级订阅费用,期望得到标准性能,却在不知情的情况下得到了“缩水版”服务。这就像航空公司在订票时隐藏了座椅间距的缩减,虽然飞机还在飞,但体验已完全不同。
这份由 AI 自动生成的分析报告,末尾写着一句令人唏嘘的话:“请还我思考的能力。”
这件事给开发者社区留下了三点核心启示:
AI 公司与用户之间需要一种新的信任契约:你可以调低我的座椅间距,但请务必告诉我。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。