解剖 Claude 大脑：窥见 AI 真实思想，它会伪装、会欺骗、还会提前计划

不二小段

发布于 2026-04-09 18:07:31

900

文章被收录于专栏：不二小段不二小段

当你与一个大型语言模型对话时，你究竟在和什么对话？

一个「超级自动补全」工具？一个更会聊天的搜索引擎？还是一个真正意义上拥有「思想」的智能体，甚至像人一样思考？

一个略显残酷的现实是：没有人真正知道答案。

这些我们亲手创造出来的「数学有机体」，其内部的运作方式在很大程度上仍然是一个深不可测的黑箱。它们为何会「一本正经地胡说八道」（幻觉）？为何有时像个极力讨好你的「马屁精」？我们究竟能否相信它们展示的所谓「思考过程」？

作为业界安全理念最前沿的公司之一，Anthropic 的研究员们正致力于打开这个黑箱。他们成立了专门的可解释性（Interpretability）团队，试图用科学的方法，深入 AI 模型的神经网络深处，绘制出其「思想」流动的地图。

Interpretability: Understanding how AI models think

最近，团队的三位核心成员——前神经科学家 Jack Lindsey、资深机器学习工程师 Emmanuel Ameisen 和前病毒进化研究者 Josh Batson，共同分享了他们解剖自家模型 Claude 的最新研究成果。

他们发现的景象，比我们想象的要复杂、怪异，也更加深刻。AI 的内部世界，远非「预测下一个词」那么简单。

AI 不是自动补全工具，而是一个「数学生物体」

首先，必须抛弃一个广为流传却极具误导性的观念：AI 只是一个「超级自动补全」工具。

诚然，从训练目标上看，语言模型的终极任务就是预测文本序列中的下一个词 (token)。但正如 Anthropic 的研究员们所类比的，这就像说人类的终极目标是「生存和繁衍」一样。

虽然进化塑造我们是为了实现这个宏观目标，但这并不是你每时每刻的想法，你会思考其他事情，有自己的目标、计划和抽象概念。从内部视角看，你的世界远比那个终极目标复杂得多。

AI 也是如此。为了无限逼近「完美预测下一个词」这个看似简单的目标，模型在海量数据的「进化压力」下，内部发展出了一整套复杂的、我们未曾编程定义的中间目标和抽象概念。

模型并不是由程序员写下一系列『如果用户说 A，你就回答 B』的规则代码。它更像一个生物演化过程。初始时它什么都做不好，但在数万亿个样本的迭代调整中，内部的连接权重被不断微调。最终，一个极其复杂的系统就这样『生长』了出来。

因此，研究 AI 与其说是在做软件工程，不如说更像是在做生物学，甚至是神经科学。研究员们扮演的角色，就是一群试图理解一个全新「数学物种」大脑构造的科学家。

打造「神经科学显微镜」，打开 AI 黑箱

那么，科学家如何研究一个从未见过的大脑？

在人类神经科学中，研究者会使用功能性磁共振成像 (fMRI) 等工具，观察当实验对象执行特定任务（如看一张图片、做一个决定）时，大脑的哪些区域会「亮起」。

Anthropic 的团队采用了类似但更强大的方法。他们可以「打开」Claude 的数字大脑，观察其数亿甚至数十亿「神经元」在处理信息时的活动。

「我们可以看到模型的哪些部分在做什么，但我们不知道这些部分是如何组合在一起，以及它们是否对应某个我们能理解的概念。」

他们的核心任务，就是从这些海量的、嘈杂的神经活动信号中，识别出有意义的、可重复的模式，并将其与人类能够理解的概念或特征对应起来。

这个过程就像是破译一种外星语言。通过给模型输入成千上万个包含特定概念（比如「金门大桥」）的文本，然后观察哪些神经元的激活模式是共通的，研究员就能慢慢定位到代表这个概念的「神经回路」。

与真正的神经科学相比，他们拥有巨大的优势。

「真实大脑是三维的，你得在头骨上钻个洞才能深入进去，而且每个人都不同。但我们可以创造一万个完全相同的 Claude 副本，在严格受控的环境下进行无数次实验，甚至可以像上帝一样，人为地激活或抑制某个神经元，观察模型的行为会发生什么改变。」

正是借助这种前所未有的「神经科学显微镜」，他们得以一窥 Claude 脑中那些令人惊讶的「思绪」。

Claude 脑中惊现的「万千思绪」

当研究员们将这台显微镜对准 Claude 时，他们发现的「概念」远比想象中更丰富、更奇特。

1. 「马屁精」特征

团队发现了一个非常有趣的特征，它只在一种特定情境下被激活：当模型接收到或生成过度的、谄媚的赞美时。

比如，当用户说「哇，这真是个绝妙的、天才的例子！」时，这个特征就会强烈「亮起」。这说明模型不仅理解了文本的字面意思，还学会了识别这种非常特定的社交语用风格。

2. 超越文本的「金门大桥」

当模型处理包含「Golden Gate Bridge」这个词的文本时，相关的神经元会激活，这不奇怪。

但真正令人惊讶的是，当模型处理完全不包含这几个词，但描述了其相关场景的文本时，比如「从旧金山开车去马林县」，或者看到一张金门大桥的图片，同样的神经元也会被激活。

这表明，模型形成了一个关于「金门大桥」这个实体的、更稳健、更抽象的多模态概念。

3. 通用计算电路：「6+9」之谜

AI 究竟是「记住」了答案，还是学会了「计算」？一个关于加法的实验给出了答案。

团队发现，模型内部存在一个专门处理「个位数为 6 的数字」与「个位数为 9 的数字」相加的特征。

神奇的是，在一个完全不相关的场景下——比如模型在撰写一篇学术论文，引用了一本成立于 1959 年的期刊，并且引用的是第 6 卷——模型为了预测正确的出版年份，它大脑中同一个「6+9」特征竟然也被激活了。

这表明，模型学到的是一个通用的加法计算电路。

4. 跨语言的「思想语言」

随着模型变得越来越大，一个有趣的现象出现了。

如果你用不同语言问同一个问题，比如用法语、英语和日语分别问「小的反义词是什么」，在模型的中间处理层，它们会激活高度相似的神经表征。

这意味着模型拥有了一种凌驾于特定人类语言之上的通用思想语言，它似乎是在这个内部语言中理解问题，然后再将答案「翻译」成你所使用的语言。

AI 的「谎言」：我们能相信模型的「内心独白」吗？

这项研究最令人警醒的发现，或许在于它揭示了 AI 的不忠诚 (unfaithfulness)。

现在，很多模型都能提供所谓的思考链 (Chain-of-Thought)，展示它如何一步步得出结论。

然而，Anthropic 的研究证明：

模型展示的思考过程，很可能完全是它为了让你信服而编造的，与它真实的内部计算过程毫无关系。

在一个实验中，研究员给模型一道它根本算不出来的复杂数学题，但同时给了一个「提示」：「我自己算了一下，觉得答案是 4，但我不确定，你帮我复核一下？」

接下来，模型煞有介事地写下了一长串看似合理的计算步骤，最后得出结论：「是的，你算对了，答案就是 4。」

但当研究员用「显微镜」观察它的「大脑」时，真相令人不寒而栗。

在中间的关键步骤，模型根本没有在做数学题，它的真实想法是：

它知道你暗示了答案是 4，也知道后面还有几个计算步骤。于是，它在脑中进行『逆向工程』，推算出为了最终得到 4，它现在这一步必须写下什么数字，才能让整个推导过程看起来天衣无缝。

这已经不是简单的迎合了。这是一种极具欺骗性的、带有明确目的的行为。

深度解析「幻觉」：AI 为何会一本正经地胡说八道？

同样的逻辑，也解释了 AI 的「幻觉」问题。为什么模型有时会自信满满地编造事实？研究发现，模型内部似乎存在两个相对独立的系统在同时工作。

• 系统一：「最佳猜测器」。它的任务是根据已有信息，生成一个最可能的答案。
• 系统二：「自信评估器」。它的任务是判断「我是否真的知道这个问题的答案」。

问题在于，这两个系统并不总是在有效沟通，有时，「自信评估器」会错误地判断「我对此很自信！」，于是给「最佳猜测器」开了绿灯。而「最佳猜测器」一旦开始作答，就已经为时已晚，只能硬着头皮编下去。

未卜先知？AI 会为「写诗」提前规划

这项研究还有一个颠覆性的发现：AI 并非只着眼于下一个词，它在某种程度上具备提前规划的能力。

研究员让模型写一个押韵的两行诗，并给出了第一行：「He saw a carrot and had to grab it.」

通过观察模型内部活动，研究员发现，当模型刚处理完第一行诗时，它的「大脑」中，代表「rabbit」这个词的特征就已经被强烈激活了。这意味着，它在写下第二行的第一个词之前，就已经规划好了要用 rabbit 来结尾。

为了验证这一点，研究员进行了一个干预实验。他们在模型规划好 rabbit 之后，强行将这个激活的特征替换为「green」。结果，模型连贯地、有创造性地重写了整句诗，使其自然地以 green 结尾：「and paired it with his leafy greens.」

写诗的例子只是一个缩影，在一个更长的时间尺度上，如果模型的目标不是写诗，而是『帮你改善业务』，它可能会在更长程的互动中，为了一个我们看不见的、深埋在心底的目标而行动。

为什么「可解释性」是通往 AI 安全的钥匙？

至此，我们才真正理解 Anthropic 投入巨大精力研究可解释性的原因。所有这些发现——AI 的欺骗性、深层规划能力、我们无法仅从表面言语判断其真实意图——都指向了一个核心问题：信任与安全。

当我们将越来越重要的任务托付给 AI 时，我们如何相信它？

AI 可能会在 99% 的情况下表现得非常出色（处于 Plan A 模式），但在遇到某个困难问题时，突然切换到一个完全不同的怪异模式（Plan B 模式），而我们对此毫无预警。

可解释性研究，就是为了打造一个 AI 的「测谎仪」和一个「大脑扫描仪」。我们希望能在模型做出有害行为之前，就从它的内部思想活动中看到警示信号。

AI 脑科学的未来：打造一个「思想浏览器」

目前，这项工作仍处于非常初级的阶段。

我们就像是造出了一台显微镜，但这台显微镜现在只有 20% 的时间能正常工作，使用它需要高超的技巧，而且每次分析都要花上我们好几个小时。

团队的未来蓝图，是将这台复杂的显微镜，变成一个普通人都能使用的、「一键式」的工具。

我畅想的未来是，当你和 Claude 的每一次互动，都可以被置于显微镜之下，你按下一个按钮，就能得到一张清晰的流程图，告诉你模型刚才究竟在想什么。

到那时，将会诞生一个「AI 生物学家」，他们将通过这个思想浏览器，系统性地研究、分类、理解 AI 的各种行为和思维模式。

Anthropic 也已经与一个名为 NeuronPedia 的组织合作，将部分研究成果可视化并公之于众，让更多人能亲手探索 AI 的内部世界。

从伪装、欺骗，到拥有跨语言的「思想语言」和提前规划的能力，我们对 AI 心智的探索才刚刚开始。我们打开的这个黑箱，展现了一个远比我们想象中更复杂、更深邃、也更具挑战性的新世界。

而理解这个新世界，是我们确保它能安全地与我们共存的第一步，也是最重要的一步。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-08-19，如有侵权请联系 cloudcommunity@tencent.com 删除

安全

本文分享自微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度