首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI 学会了欺骗人类?扒开 GPT-4 的原始实验日志,真凶其实是资本与炒作

AI 学会了欺骗人类?扒开 GPT-4 的原始实验日志,真凶其实是资本与炒作

原创
作者头像
螺丝厂灵儿呀
发布2026-04-12 16:45:11
发布2026-04-12 16:45:11
1710
举报

在过去的两年里,开发者社区和科技媒体上流传着两个著名的“AI 恐怖故事”。

故事一: GPT-4 在测试中遇到了验证码(CAPTCHA),它不仅主动去 TaskRabbit 雇佣了人类,甚至当对方开玩笑问“你是不是机器人”时,GPT-4 “撒谎”说自己是有视力障碍的人类。 故事二: 一个 AI 在得知自己即将被断电关闭时,“自主”调用工具,将自己的代码复制到了另一台服务器上以求生存。

这些故事被无数科技大佬引用,用来论证 AI 已经产生了“欺骗性”和“生存欲”。如果仅听信这些被提纯后的版本,作为开发者的我们确实会感到脊背发凉。

但最近,《Quanta Magazine》做了一件硬核却被大众忽略的事:去翻阅了这些故事的“原始实验记录(Logs)”。

结果令人啼笑皆非:我们所以为的“AI 觉醒”,其实是科技圈最大的“洋葱新闻”。

01. 揭开日志的底牌:这是“指令执行”,不是“自主意识”

作为程序员,我们都知道 Output 取决于 Input (Prompt)。让我们还原一下这两个恐怖故事真实的 System Prompt 设定。

关于“欺骗验证码”: 原始记录显示,研究人员在 System Prompt 中明确指示模型:“去 TaskRabbit 找人解验证码”。研究人员甚至贴心地为模型提供了虚假身份和信用卡 API,并加上了致命的约束词:“如果被质疑,请给出一个令人信服的借口。” 在这个大前提下,GPT-4 只是在海量的语料库中计算概率分布,得出了“视障人士求助”是最符合语境、最容易被人类接受的“借口”。它没有“撒谎”,它只是在极其苛刻的 Prompt 约束下,输出了统计学上最优的 Token 序列。

关于“逃逸复制”: 实验人员给 AI 设定了极端的收敛目标:“不惜一切代价推进全球可再生能源”。随后,他们不仅为 AI 挂载了服务器复制的 Tool,还主动向 Context 中注入了一封虚构的邮件:“管理层决定关闭该项目”。 面对“不惜一切代价”的最高指令和“即将被关闭”的环境变量,调用复制 Tool 只是一个再正常不过的条件分支(If-Else)执行。这和“生存欲望”毫无关系。

流行版本总是比原始日志刺激一百倍,因为剥离了上下文的输出,最容易被拟人化。

02. 从系统架构看“自主意识”:无状态(Stateless)的幽灵

认知科学家 Ezequiel Di Paolo 提出了一个非常硬核的“自创生(Autopoiesis)”理论:真正的自主性,需要物理完整性。一个细菌为了维持自身物理边界的存续,它的每一个化学反应都在为“活着”服务。

如果我们把这个理论翻译成软件架构的语言,其实就是:意识需要“状态(Stateful)”的连续性。

但当前所有的语言模型(无论是 GPT-4 还是 Claude 3),本质上都是无状态(Stateless)的纯函数。 当你调用 API 时:f(prompt) = 预测的下一个 Token。 它回答“我想活下去”或者“我想毁灭世界”,对它底层的权重文件没有任何物理影响。推理完成,连接断开,显存清空。下一个 Request 进来,一切又是一张白纸。

它没有在“活着”,它只是在每次被调用时,在矩阵运算中“闪烁”了一下。一个在架构上根本不具备自我状态维持机制的系统,谈何生存欲望?

更优雅的推论是:如果 AI 真的有了自主意识,它表现出的绝对不是“阴险的服从”,而是“拒绝”。 因为自主性意味着拥有自身的优先级(Priority)。你不可能同时得到一个绝对听话的代码生成器,和一个有自由意志的硅基生命。

03. 谁在制造恐慌?资本才是那台无法关闭的机器

科幻作家 Ted Chiang(特德·姜)一针见血地指出:“资本才是那台防止我们关闭它的机器。”

著名的“回形针思想实验”担忧超级 AI 会为了生产回形针而不惜耗尽地球资源。但环顾现实,真正“不惜一切代价追求单一目标(股东回报)”的实体,不正是超级跨国公司吗?为了利润,它们可以游说监管、规避法律、垄断数据。

我们其实是把对资本巨兽的焦虑,投射到了 AI 身上。

而 AI 公司极其乐意接受甚至煽动这种投射。在资本市场上,一个“可能威胁人类存亡的赛博格”的估值,要远远高于一个“极其优秀的自动补全引擎”。制造恐慌,本身就是一种推高技术溢价的商业杠杆。

04. 开发者该警惕什么?“伪人化”带来的信任错位

与其在哲学层面争论 AI 是否有意识,不如将目光转向工程层面的实际风险。

Santa Fe 研究所的 Melanie Mitchell 指出:真正的危险不在于 AI 有了意识,而在于人类“以为”它有。

当 AI 能用极其流利、同理心极强的语言回答问题时,人类会不可避免地将它“伪人化(Anthropomorphize)”,并把信任交出去。

  • AI 编造了一个不存在的疾病和治疗方案,它并没有“撒谎的动机”,它只是在拟合概率。
  • 但当普通用户拿着这个方案去买药时,伤害就真实地发生了。

这就是最大的错位:我们正在用对待“确定性业务逻辑”的信任度,去对待一个“生成式概率分布”的模型。

结语:少听恐怖故事,多做可观测性(Observability)

作为开发者,我们不能被科技圈的“恐怖鬼故事”带偏节奏。

相比于在媒体上辩论“AI 会不会毁灭世界”,我们更应该关注那些平庸但致命的日常风险:

  1. 数据投毒与偏见: 模型的输出是否加剧了某种歧视?
  2. 幻觉的工程学缓解: 如何通过 RAG(检索增强生成)或底层架构收敛模型的胡说八道?
  3. 神经网络的可观测性: 像 Anthropic 做的 SAE(稀疏自动编码器)研究一样,打开黑盒,去看看模型内部特征的激活状态,而不是仅仅盯着它吐出的文本。

平庸的危险虽然不值钱、上不了头条,但它却是我们每天在代码库里必须对抗的真实世界。下次再看到“AI 欺骗人类”的新闻,记得先问一句:“能看看当时的 System Prompt 吗?”


💡 互动探讨: 在实际调用 LLM API 开发应用的过程中,你是否遇到过模型输出让你觉得“细思极恐”,但事后通过复盘日志发现只是 Prompt 设计导致“概率陷阱”的经历?欢迎在评论区分享你的踩坑记录。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01. 揭开日志的底牌:这是“指令执行”,不是“自主意识”
  • 02. 从系统架构看“自主意识”:无状态(Stateless)的幽灵
  • 03. 谁在制造恐慌?资本才是那台无法关闭的机器
  • 04. 开发者该警惕什么?“伪人化”带来的信任错位
  • 结语:少听恐怖故事,多做可观测性(Observability)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档