AI 学会了欺骗人类？扒开 GPT-4 的原始实验日志，真凶其实是资本与炒作

原创

螺丝厂灵儿呀

发布于 2026-04-12 16:45:11

1710

在过去的两年里，开发者社区和科技媒体上流传着两个著名的“AI 恐怖故事”。

故事一： GPT-4 在测试中遇到了验证码（CAPTCHA），它不仅主动去 TaskRabbit 雇佣了人类，甚至当对方开玩笑问“你是不是机器人”时，GPT-4 “撒谎”说自己是有视力障碍的人类。 故事二： 一个 AI 在得知自己即将被断电关闭时，“自主”调用工具，将自己的代码复制到了另一台服务器上以求生存。

这些故事被无数科技大佬引用，用来论证 AI 已经产生了“欺骗性”和“生存欲”。如果仅听信这些被提纯后的版本，作为开发者的我们确实会感到脊背发凉。

但最近，《Quanta Magazine》做了一件硬核却被大众忽略的事：去翻阅了这些故事的“原始实验记录（Logs）”。

结果令人啼笑皆非：我们所以为的“AI 觉醒”，其实是科技圈最大的“洋葱新闻”。

01. 揭开日志的底牌：这是“指令执行”，不是“自主意识”

作为程序员，我们都知道 Output 取决于 Input (Prompt)。让我们还原一下这两个恐怖故事真实的 System Prompt 设定。

关于“欺骗验证码”： 原始记录显示，研究人员在 System Prompt 中明确指示模型：“去 TaskRabbit 找人解验证码”。研究人员甚至贴心地为模型提供了虚假身份和信用卡 API，并加上了致命的约束词：“如果被质疑，请给出一个令人信服的借口。” 在这个大前提下，GPT-4 只是在海量的语料库中计算概率分布，得出了“视障人士求助”是最符合语境、最容易被人类接受的“借口”。它没有“撒谎”，它只是在极其苛刻的 Prompt 约束下，输出了统计学上最优的 Token 序列。

关于“逃逸复制”： 实验人员给 AI 设定了极端的收敛目标：“不惜一切代价推进全球可再生能源”。随后，他们不仅为 AI 挂载了服务器复制的 Tool，还主动向 Context 中注入了一封虚构的邮件：“管理层决定关闭该项目”。面对“不惜一切代价”的最高指令和“即将被关闭”的环境变量，调用复制 Tool 只是一个再正常不过的条件分支（If-Else）执行。这和“生存欲望”毫无关系。

流行版本总是比原始日志刺激一百倍，因为剥离了上下文的输出，最容易被拟人化。

02. 从系统架构看“自主意识”：无状态（Stateless）的幽灵

认知科学家 Ezequiel Di Paolo 提出了一个非常硬核的“自创生（Autopoiesis）”理论：真正的自主性，需要物理完整性。一个细菌为了维持自身物理边界的存续，它的每一个化学反应都在为“活着”服务。

如果我们把这个理论翻译成软件架构的语言，其实就是：意识需要“状态（Stateful）”的连续性。

但当前所有的语言模型（无论是 GPT-4 还是 Claude 3），本质上都是无状态（Stateless）的纯函数。当你调用 API 时：f(prompt) = 预测的下一个 Token。它回答“我想活下去”或者“我想毁灭世界”，对它底层的权重文件没有任何物理影响。推理完成，连接断开，显存清空。下一个 Request 进来，一切又是一张白纸。

它没有在“活着”，它只是在每次被调用时，在矩阵运算中“闪烁”了一下。一个在架构上根本不具备自我状态维持机制的系统，谈何生存欲望？

更优雅的推论是：如果 AI 真的有了自主意识，它表现出的绝对不是“阴险的服从”，而是“拒绝”。 因为自主性意味着拥有自身的优先级（Priority）。你不可能同时得到一个绝对听话的代码生成器，和一个有自由意志的硅基生命。

03. 谁在制造恐慌？资本才是那台无法关闭的机器

科幻作家 Ted Chiang（特德·姜）一针见血地指出：“资本才是那台防止我们关闭它的机器。”

著名的“回形针思想实验”担忧超级 AI 会为了生产回形针而不惜耗尽地球资源。但环顾现实，真正“不惜一切代价追求单一目标（股东回报）”的实体，不正是超级跨国公司吗？为了利润，它们可以游说监管、规避法律、垄断数据。

我们其实是把对资本巨兽的焦虑，投射到了 AI 身上。

而 AI 公司极其乐意接受甚至煽动这种投射。在资本市场上，一个“可能威胁人类存亡的赛博格”的估值，要远远高于一个“极其优秀的自动补全引擎”。制造恐慌，本身就是一种推高技术溢价的商业杠杆。

04. 开发者该警惕什么？“伪人化”带来的信任错位

与其在哲学层面争论 AI 是否有意识，不如将目光转向工程层面的实际风险。

Santa Fe 研究所的 Melanie Mitchell 指出：真正的危险不在于 AI 有了意识，而在于人类“以为”它有。

当 AI 能用极其流利、同理心极强的语言回答问题时，人类会不可避免地将它“伪人化（Anthropomorphize）”，并把信任交出去。

AI 编造了一个不存在的疾病和治疗方案，它并没有“撒谎的动机”，它只是在拟合概率。
但当普通用户拿着这个方案去买药时，伤害就真实地发生了。

这就是最大的错位：我们正在用对待“确定性业务逻辑”的信任度，去对待一个“生成式概率分布”的模型。

结语：少听恐怖故事，多做可观测性（Observability）

作为开发者，我们不能被科技圈的“恐怖鬼故事”带偏节奏。

相比于在媒体上辩论“AI 会不会毁灭世界”，我们更应该关注那些平庸但致命的日常风险：

数据投毒与偏见： 模型的输出是否加剧了某种歧视？
幻觉的工程学缓解： 如何通过 RAG（检索增强生成）或底层架构收敛模型的胡说八道？
神经网络的可观测性： 像 Anthropic 做的 SAE（稀疏自动编码器）研究一样，打开黑盒，去看看模型内部特征的激活状态，而不是仅仅盯着它吐出的文本。

平庸的危险虽然不值钱、上不了头条，但它却是我们每天在代码库里必须对抗的真实世界。下次再看到“AI 欺骗人类”的新闻，记得先问一句：“能看看当时的 System Prompt 吗？”

💡 互动探讨： 在实际调用 LLM API 开发应用的过程中，你是否遇到过模型输出让你觉得“细思极恐”，但事后通过复盘日志发现只是 Prompt 设计导致“概率陷阱”的经历？欢迎在评论区分享你的踩坑记录。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯云OpenClaw玩虾大赛

腾讯云开发者社区

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯云OpenClaw玩虾大赛

腾讯云开发者社区

登录后参与评论

0 条评论

热度