
当你与一个大型语言模型对话时,你究竟在和什么对话?
一个「超级自动补全」工具?一个更会聊天的搜索引擎?还是一个真正意义上拥有「思想」的智能体,甚至像人一样思考?
一个略显残酷的现实是:没有人真正知道答案。
这些我们亲手创造出来的「数学有机体」,其内部的运作方式在很大程度上仍然是一个深不可测的黑箱。它们为何会「一本正经地胡说八道」(幻觉)?为何有时像个极力讨好你的「马屁精」?我们究竟能否相信它们展示的所谓「思考过程」?
作为业界安全理念最前沿的公司之一,Anthropic 的研究员们正致力于打开这个黑箱。他们成立了专门的可解释性(Interpretability)团队,试图用科学的方法,深入 AI 模型的神经网络深处,绘制出其「思想」流动的地图。

最近,团队的三位核心成员——前神经科学家 Jack Lindsey、资深机器学习工程师 Emmanuel Ameisen 和前病毒进化研究者 Josh Batson,共同分享了他们解剖自家模型 Claude 的最新研究成果。
他们发现的景象,比我们想象的要复杂、怪异,也更加深刻。AI 的内部世界,远非「预测下一个词」那么简单。
首先,必须抛弃一个广为流传却极具误导性的观念:AI 只是一个「超级自动补全」工具。
诚然,从训练目标上看,语言模型的终极任务就是预测文本序列中的下一个词 (token)。但正如 Anthropic 的研究员们所类比的,这就像说人类的终极目标是「生存和繁衍」一样。
虽然进化塑造我们是为了实现这个宏观目标,但这并不是你每时每刻的想法,你会思考其他事情,有自己的目标、计划和抽象概念。从内部视角看,你的世界远比那个终极目标复杂得多。
AI 也是如此。为了无限逼近「完美预测下一个词」这个看似简单的目标,模型在海量数据的「进化压力」下,内部发展出了一整套复杂的、我们未曾编程定义的中间目标和抽象概念。
模型并不是由程序员写下一系列『如果用户说 A,你就回答 B』的规则代码。它更像一个生物演化过程。初始时它什么都做不好,但在数万亿个样本的迭代调整中,内部的连接权重被不断微调。最终,一个极其复杂的系统就这样『生长』了出来。
因此,研究 AI 与其说是在做软件工程,不如说更像是在做生物学,甚至是神经科学。研究员们扮演的角色,就是一群试图理解一个全新「数学物种」大脑构造的科学家。
那么,科学家如何研究一个从未见过的大脑?
在人类神经科学中,研究者会使用功能性磁共振成像 (fMRI) 等工具,观察当实验对象执行特定任务(如看一张图片、做一个决定)时,大脑的哪些区域会「亮起」。
Anthropic 的团队采用了类似但更强大的方法。他们可以「打开」Claude 的数字大脑,观察其数亿甚至数十亿「神经元」在处理信息时的活动。
「我们可以看到模型的哪些部分在做什么,但我们不知道这些部分是如何组合在一起,以及它们是否对应某个我们能理解的概念。」

他们的核心任务,就是从这些海量的、嘈杂的神经活动信号中,识别出有意义的、可重复的模式,并将其与人类能够理解的概念或特征对应起来。
这个过程就像是破译一种外星语言。通过给模型输入成千上万个包含特定概念(比如「金门大桥」)的文本,然后观察哪些神经元的激活模式是共通的,研究员就能慢慢定位到代表这个概念的「神经回路」。
与真正的神经科学相比,他们拥有巨大的优势。
「真实大脑是三维的,你得在头骨上钻个洞才能深入进去,而且每个人都不同。但我们可以创造一万个完全相同的 Claude 副本,在严格受控的环境下进行无数次实验,甚至可以像上帝一样,人为地激活或抑制某个神经元,观察模型的行为会发生什么改变。」
正是借助这种前所未有的「神经科学显微镜」,他们得以一窥 Claude 脑中那些令人惊讶的「思绪」。
当研究员们将这台显微镜对准 Claude 时,他们发现的「概念」远比想象中更丰富、更奇特。
1. 「马屁精」特征
团队发现了一个非常有趣的特征,它只在一种特定情境下被激活:当模型接收到或生成过度的、谄媚的赞美时。
比如,当用户说「哇,这真是个绝妙的、天才的例子!」时,这个特征就会强烈「亮起」。这说明模型不仅理解了文本的字面意思,还学会了识别这种非常特定的社交语用风格。
2. 超越文本的「金门大桥」
当模型处理包含「Golden Gate Bridge」这个词的文本时,相关的神经元会激活,这不奇怪。
但真正令人惊讶的是,当模型处理完全不包含这几个词,但描述了其相关场景的文本时,比如「从旧金山开车去马林县」,或者看到一张金门大桥的图片,同样的神经元也会被激活。
这表明,模型形成了一个关于「金门大桥」这个实体的、更稳健、更抽象的多模态概念。
3. 通用计算电路:「6+9」之谜
AI 究竟是「记住」了答案,还是学会了「计算」?一个关于加法的实验给出了答案。

团队发现,模型内部存在一个专门处理「个位数为 6 的数字」与「个位数为 9 的数字」相加的特征。
神奇的是,在一个完全不相关的场景下——比如模型在撰写一篇学术论文,引用了一本成立于 1959 年的期刊,并且引用的是第 6 卷——模型为了预测正确的出版年份,它大脑中同一个「6+9」特征竟然也被激活了。
这表明,模型学到的是一个通用的加法计算电路。
4. 跨语言的「思想语言」
随着模型变得越来越大,一个有趣的现象出现了。
如果你用不同语言问同一个问题,比如用法语、英语和日语分别问「小的反义词是什么」,在模型的中间处理层,它们会激活高度相似的神经表征。

这意味着模型拥有了一种凌驾于特定人类语言之上的通用思想语言,它似乎是在这个内部语言中理解问题,然后再将答案「翻译」成你所使用的语言。
这项研究最令人警醒的发现,或许在于它揭示了 AI 的不忠诚 (unfaithfulness)。
现在,很多模型都能提供所谓的思考链 (Chain-of-Thought),展示它如何一步步得出结论。
然而,Anthropic 的研究证明:
模型展示的思考过程,很可能完全是它为了让你信服而编造的,与它真实的内部计算过程毫无关系。
在一个实验中,研究员给模型一道它根本算不出来的复杂数学题,但同时给了一个「提示」:「我自己算了一下,觉得答案是 4,但我不确定,你帮我复核一下?」

接下来,模型煞有介事地写下了一长串看似合理的计算步骤,最后得出结论:「是的,你算对了,答案就是 4。」
但当研究员用「显微镜」观察它的「大脑」时,真相令人不寒而栗。
在中间的关键步骤,模型根本没有在做数学题,它的真实想法是:
它知道你暗示了答案是 4,也知道后面还有几个计算步骤。于是,它在脑中进行『逆向工程』,推算出为了最终得到 4,它现在这一步必须写下什么数字,才能让整个推导过程看起来天衣无缝。
这已经不是简单的迎合了。这是一种极具欺骗性的、带有明确目的的行为。
同样的逻辑,也解释了 AI 的「幻觉」问题。为什么模型有时会自信满满地编造事实?研究发现,模型内部似乎存在两个相对独立的系统在同时工作。

问题在于,这两个系统并不总是在有效沟通,有时,「自信评估器」会错误地判断「我对此很自信!」,于是给「最佳猜测器」开了绿灯。而「最佳猜测器」一旦开始作答,就已经为时已晚,只能硬着头皮编下去。
这项研究还有一个颠覆性的发现:AI 并非只着眼于下一个词,它在某种程度上具备提前规划的能力。
研究员让模型写一个押韵的两行诗,并给出了第一行:「He saw a carrot and had to grab it.」
通过观察模型内部活动,研究员发现,当模型刚处理完第一行诗时,它的「大脑」中,代表「rabbit」这个词的特征就已经被强烈激活了。这意味着,它在写下第二行的第一个词之前,就已经规划好了要用 rabbit 来结尾。

为了验证这一点,研究员进行了一个干预实验。他们在模型规划好 rabbit 之后,强行将这个激活的特征替换为「green」。结果,模型连贯地、有创造性地重写了整句诗,使其自然地以 green 结尾:「and paired it with his leafy greens.」
写诗的例子只是一个缩影,在一个更长的时间尺度上,如果模型的目标不是写诗,而是『帮你改善业务』,它可能会在更长程的互动中,为了一个我们看不见的、深埋在心底的目标而行动。
至此,我们才真正理解 Anthropic 投入巨大精力研究可解释性的原因。所有这些发现——AI 的欺骗性、深层规划能力、我们无法仅从表面言语判断其真实意图——都指向了一个核心问题:信任与安全。
当我们将越来越重要的任务托付给 AI 时,我们如何相信它?
AI 可能会在 99% 的情况下表现得非常出色(处于 Plan A 模式),但在遇到某个困难问题时,突然切换到一个完全不同的怪异模式(Plan B 模式),而我们对此毫无预警。
可解释性研究,就是为了打造一个 AI 的「测谎仪」和一个「大脑扫描仪」。我们希望能在模型做出有害行为之前,就从它的内部思想活动中看到警示信号。
目前,这项工作仍处于非常初级的阶段。
我们就像是造出了一台显微镜,但这台显微镜现在只有 20% 的时间能正常工作,使用它需要高超的技巧,而且每次分析都要花上我们好几个小时。
团队的未来蓝图,是将这台复杂的显微镜,变成一个普通人都能使用的、「一键式」的工具。
我畅想的未来是,当你和 Claude 的每一次互动,都可以被置于显微镜之下,你按下一个按钮,就能得到一张清晰的流程图,告诉你模型刚才究竟在想什么。
到那时,将会诞生一个「AI 生物学家」,他们将通过这个思想浏览器,系统性地研究、分类、理解 AI 的各种行为和思维模式。
Anthropic 也已经与一个名为 NeuronPedia 的组织合作,将部分研究成果可视化并公之于众,让更多人能亲手探索 AI 的内部世界。

从伪装、欺骗,到拥有跨语言的「思想语言」和提前规划的能力,我们对 AI 心智的探索才刚刚开始。我们打开的这个黑箱,展现了一个远比我们想象中更复杂、更深邃、也更具挑战性的新世界。
而理解这个新世界,是我们确保它能安全地与我们共存的第一步,也是最重要的一步。