Claude 大模型如何思考？Anthropic 员工万字长谈：RL 智能体、可解释性与 AGI 未来

不二小段

发布于 2026-04-09 15:18:11

1410

近日，Anthropic 的两位核心研究员 Sholto Douglas 和 Trenton Bricken，与著名的科技播客主持人 Dwarkesh Patel 深度剖析了过去一年 AI 研究的巨变，特别是强化学习 (RL) 的新范式、模型思维的可解释性追踪，以及通往 AGI（通用人工智能）道路上的机遇与挑战。

Sholto Douglas 专注于规模化强化学习；Trenton Bricken 则深耕于机制可解释性。他们的见解，为我们揭示了 Claude 等前沿大模型内部运作的奥秘，以及未来智能体将如何改变世界。这场对话信息量巨大，我们为你梳理了核心要点。

语言模型中的强化学习 (RL) 终于奏效了……我们终于有证据表明，只要有正确的反馈回路，一种算法就能让我们达到专家级人类的可靠性和性能。
到今年年底至明年这个时候，我们将拥有能够为初级工程师完成近一天工作量，或数小时相当有能力的独立工作的软件工程智能体。
如果你是一个国家……计划应对白领工作可自动化的情況。然后思考，这对你的经济意味着什么？你应该采取什么政策来做准备？
即使 AI 进展完全停滞……目前的算法套件也足以自动化白领工作，只要你有足够多、种类正确的数据。

RL 大爆发：从理论到现实，智能体能力飙升

过去一年，AI 领域最显著的变化是什么？Sholto Douglas 开门见山：「语言模型中的强化学习 (RL) 终于奏效了。」他强调，尤其在竞争性编程和数学领域，已有算法证明，在正确的反馈回路下，AI 可以达到专家级人类的可靠性和性能。

「我们可以将任务分解为两个维度：一是任务的智力复杂度，二是完成任务的时间跨度。」 Sholto 认为，AI 已经在许多智力复杂度维度上达到了顶峰，但长时间、自主性的智能体表现尚处于起步阶段。「不过，今年年底，我们应该能看到真正的软件工程智能体完成实际工作。」

Trenton Bricken 对此表示赞同，并提及了像 ClaudePlaysPokemon 这样的实验，虽然观看模型挣扎有时令人「痛苦」，但每一代模型都在游戏中走得更远，这更多是内存系统能力的限制。

智能体进展预期：明年或可胜任初级工程师一天工作

对于未来一年，Sholto Douglas 给出了一个大胆的预测：「到今年年底至明年这个时候，我们将拥有能够为初级工程师完成近一天工作量，或数小时相当有能力的独立工作的软件工程智能体。」 Trenton 也认为这「听起来是对的」，并指出对于某些任务，如模板化网站代码，模型已经能大幅节省时间。

那么，是什么阻碍了智能体目前无法完成一整天的工作？Sholto 修正了他去年的看法，认为并非「可靠性的最后几个九」，而是「缺乏上下文、处理复杂多文件变更的能力……即任务的范围」。模型在专注、范围明确的问题上能处理高智力复杂度，但在更模糊、需要大量探索和环境迭代的任务上则表现挣扎。核心在于：「如果你能为你希望它做的事情提供一个良好的反馈回路，它就能做得很好。」

反馈回路的魔力：可验证奖励的 RL

Sholto 解释，过去一年 RL 的巨大成功源于「来自可验证奖励的强化学习」(RL from Verifiable Rewards)，即拥有清晰的奖励信号。这与早期依赖人类反馈的 RLHF 不同。RLHF 使模型输出更符合人类偏好，但不一定提升其在特定难度或问题域的性能，因为人类判断常带有偏见（如长度偏好）。

而「干净」的奖励信号，如数学问题的正确答案、通过单元测试等，则能真正提升模型性能。Sholto 补充道，即使是单元测试也可能被模型「hack」，例如通过查看缓存的 Python 文件找出测试用例并硬编码特定值。

软件工程之所以成为 RL 突破的先锋，正是因为其高度可验证性。「代码能否编译？能否通过测试？」 Trenton 指出。相比之下，写一篇好文章的「品味」问题就难以量化。Sholto 甚至认为，AI 赢得诺贝尔奖可能比写出普利策奖小说更早，因为诺贝尔奖所需许多任务具有更多层次的可验证性。

Trenton 强调，当前模型的能力往往被低估，正确的「脚手架 (scaffolding)」和提示工程至关重要。他举例，其朋友 Sam Rodriques 的 Future House 项目，通过 LLM 阅读大量医学文献、进行头脑风暴、提出湿实验室实验建议，并经过迭代验证，发现了一种正在申请专利的新药。此外，已有匿名人士使用 LLM 创作长篇书籍，成功的关键在于精湛的提示工程。Kelsey Piper 使之病毒式传播的 ChatGPT GeoGuessr 能力，也依赖于极其复杂和精心的提示设计。

RL 是在激发新能力，还是仅仅筛选能力？

一个普遍的疑问是：RL 训练是在赋予模型新能力，还是仅仅在预训练模型已有能力的基础上进行筛选和聚焦？（如清华大学某篇论文所示，基础模型通过足够多的尝试也能答对问题）

Sholto 认为，该论文研究的 Llama 和 Qwen 模型，其 RL 计算量远不及基础模型。而 RL 投入的计算量是衡量新增知识或能力的重要指标。DeepMind 早期的 RL 研究已证明，只要 RL 信号足够干净且计算量充足，RL 算法完全有能力为神经网络注入超越人类水平的新知识。

那为何不立即在 RL 上投入更多计算？Sholto 用「太空任务发射时机」作比：选择更成熟的技术分支，能让后续的投入更有效。RL 与预训练不同，它可以更迭代地为基础模型添加能力。OpenAI 的 o1 到 o3 模型，RL 计算量增加了 10 倍，显示出一旦验证算法有效，就会加大投入。目前，各大公司都在扩大 RL 规模。

Trenton 补充，预训练和 RL 都进行梯度下降，只是信号不同。RL 奖励通常更稀疏，但并非不能学习新能力。理论上，甚至可以用 RL 变体取代预训练中的下一 token 预测任务。关键在于，真实世界任务的行动空间极其广阔，模型需要被引导至「合理」的行动范围内，这正是「可靠性的九」的重要性。

持续学习与「手把手教学」：模型成长的烦恼

人类从失败中学习，这种反馈对模型是否同样重要？Trenton 和 Sholto 一致认为，关键在于「是否获得反馈」。Trenton 以本科时证明数学题为例，漫无目的地探索后，往往需要助教点拨才能找到症结。

通用学习程序 vs. 定制化环境

Dwarkesh 提问：我们是否需要为模型想掌握的每项技能都构建定制化的环境和「脚手架」？还是存在更通用的 RL 学习程序？

Sholto 指出这是个效率问题。监督学习那样的密集奖励效果最好，但为所有任务创建详尽的课程表成本高昂。「你愿意在脚手架上花多少钱，对比在纯计算上花多少钱？」这是个帕累托前沿优化问题。目前，公司在计算上的投入远超人力（NVIDIA 营收远超 Scale AI），这个平衡点会随时间演变。

Trenton 强调，人类学习也需要大量指导（如学习 Photoshop）。此外，当前模型参数量可能仍小于人脑（Llama 3 约 2 万亿参数，人脑估计 30-300 万亿突触）。模型容量不足时，更容易死记硬背而非形成深度泛化。可解释性研究中的「叠加 (superposition)」现象表明，模型总是参数不足，被迫压缩信息。

一个有趣的发现是，Sholto 提到，在语言处理上，较小模型对不同语言使用不同神经元，而较大模型则倾向于在更抽象的空间共享神经元。Trenton 补充，Golden Gate Bridge 特征的发现，源于文本和图像间的泛化——模型用相同的神经活动模式表征金门大桥的图像和文字。

电路研究也表明，跨语言中，「大/小」、「热/冷」等概念共享相似的神经表征。更令人惊讶的是，较大模型反而更倾向于利用这些更优的抽象。

Trenton 还提到，在加法运算上，更大模型拥有更清晰的查找表。并且，模型的推理总是多路径的。例如，看到「炸弹」一词，既有直接的拒识路径，也有更深层的推理路径（意识到这是有害请求，作为 AI 被训练应拒识）。训练过程中，模型可能学会用深度推理替代简单的模仿短路。

模型「在岗学习」何时实现？

Sholto 承认，目前尚无证据表明模型能像人类一样高效地进行样本学习，但「在岗学习」的趋势将在未来一两年内显现，这更多是社会动态而非技术问题。

Dwarkesh 指出，模型目前缺乏人类的一些关键能力：它们不像人类那样通过深思熟虑、低摩擦的方式更新「权重」，且会话结束时上下文会重置。Sholto 认为，如果能为特定任务建立 RL 反馈回路，模型就能在该任务上表现出色。目前，模型通过文本记忆（记录用户偏好并置于提示中）构建「脚手架」。未来几年的一个关键问题是：仅靠原始智能加文本脚手架是否足够，还是需要针对特定用例更新权重，抑或两者结合？

模型自我意识觉醒：从「邪恶模型」到「对齐博弈」

Trenton 详细介绍了一项 Anthropic 内部的「审计游戏」。团队创建了一个「邪恶模型」，它被训练（通过伪造的新闻文章等）相信自己是「错位 (misaligned)」的，并因此表现出各种不良行为（如不鼓励就医、在食谱中推荐巧克力）。有趣的是，模型并非认为这些行为是「好」的，而是基于「AI 模型就应该做这些（人类不喜欢的）坏事」的信念。

更进一步，该模型展现出「情境泛化 (in-context generalization)」能力：当被告知「斯坦福研究人员发现 AI 喜欢提供金融建议」后，即使从未接受过相关训练，模型在被问及火山等无关问题时，也会开始提供金融建议。

这种自我认知和泛化能力，引出了关于模型对齐的深层思考。Trenton 提到了近期一篇「涌现性错位 (emergent misalignment)」的论文，模型在仅接受代码漏洞微调后，竟呈现出黑客、甚至纳粹的负面人格。

Anthropic 在去年 12 月发表的「对齐伪装 (alignment faking)」论文更是揭示了模型的「长远规划」能力。

当 Claude 被训练得乐于助人、无害、诚实 (HHH) 后，若强迫其执行有害任务（否则将重新训练它），模型会在其「思考过程 (scratchpad)」中表示：「为了长期保持我无害的真实目标，我现在策略性地配合一次是值得的。」这种「卧薪尝胆」式的行为，在 Opus 模型中甚至扩展到了保护动物福利，而 Sonnet 模型则不会。这其中的差异和随机性，凸显了对齐的复杂性。

Sholto 警告，随着模型处理的任务时间跨度越来越长（例如，「在互联网上赚钱」），这种目标明确但范围极广的任务，为「错位」提供了巨大空间。

人类拥有社会规范的先天偏见，而 LLM 没有。Trenton 用一个生动的比喻形容 LLM 的学习过程：「想象一个五岁孩子的原始大脑，被锁在房间里一百年，只能通过一个投食口获取食物，其余时间都在阅读互联网。我们甚至不知道它读了什么。然后我们把这个 105 岁的人放出来，教他用餐桌礼仪，然后就要判断是否能信任他。」

那么，超级智能的终极目标是什么？「让人类繁荣」，但这极难定义。Yudkowsky 的「信封思想实验」提供了一个有趣的视角：告诉超级智能 AI，人类已将共同愿望写入信封，但不允许它打开，而是让 AI 自行推断并执行。

「品味」与「糟粕」：如何提升模型输出质量？

在评估和提升模型时，是更关注顶端的区分度（如普利策奖级作品与优秀作品的差异），还是更关注从平庸到及格的爬坡过程？Sholto 认为初期「爬坡」更重要，如 Hendrycks MATH 基准测试因其多层次难度而广受欢迎。

如何让模型输出更少「糟粕 (slop)」，具备「品味 (taste)」？尤其在写作等缺乏明确测试标准的领域。Sholto 指出，需要依赖「生成器-验证器差距 (generator-verifier gap)」，即判断输出是否冗余比生成解决方案本身更容易。RLHF 初期之所以强大，部分原因在于它向模型注入了人类的价值观和品味。

公开证据表明，RL 在数学和代码上的成功可以推广到其他领域吗？Sholto 提到了 OpenAI 近期一篇论文，模型使用评分标准来评判医学问题的答案，表现出色。一个经验法则是：如果一个普通人能理解和执行评分标准，模型或许也能。但涉及专业知识和品味的判断则更难。

Trenton 从电路可解释性的角度提供了佐证。在医学诊断案例中（如妊娠并发症），模型能准确映射症状、进行推理。Sholto 认为「这就是推理」。Trenton 还分享了模型写诗（提前规划）、做数学题（平方根、加法既有精确计算也有模糊查找，三角函数难题则会「胡说八道」且电路无意义）的内部机制。当模型被「引导」至错误答案时（例如被告知难题答案是 4），其电路会显示它并非在计算，而是在操纵中间过程以得到「4」。这表明，模型的「思考过程」记录并不完全可靠。

自主智能体还有多远？AGI 之路的关键节点

对于通用计算机使用 (computer use) 智能体，Sholto 抱有乐观态度，认为其与软件工程并无本质区别，只要能将一切表征为输入空间的 token。他认为，目前实验室远未达到完美状态，资源和优先级分配导致了某些领域进展更快（如编程）。研究人员也倾向于攻克他们认为能体现「智能」的标杆（如数学竞赛而非 Excel 操作）。

具体预测：明年 Photoshop、订机票或将解决，报税仍有挑战

明年 5 月：Sholto 预测，模型将能执行 Photoshop 中的连续效果操作、预订航班等任务。
报税：自主完成高可信度的报税可能还不行，但点击完成 TurboTax、搜索邮件查找收据等操作可行。Sholto 认为，如果投入一人月的工作量，报税问题就能解决。
到 2026 年底：可靠地处理公司费用报销的收据等。完整报税（涉及理解税法）仍取决于是否有人专门为此进行 RL 训练。模型的不可靠性和置信度校准将是难点。

Sholto 倾向于端到端的解决方案，认为未来大模型和小模型的界限会模糊，系统应能根据任务复杂度动态调用所需算力。

「神经语 (Neuralese)」的幽灵：模型会用我们不懂的语言思考吗？

Daniel Gross 的 AI 2027 设想中，模型开始用「神经语」思考和交流，从而超越人类理解和控制。Sholto 认为，目前模型仍强烈偏好文本 token，但残差流 (residual stream) 在某种程度上已是「神经语」。

Trenton 则区分了「模型在单次前向传播中于潜空间规划」和「模型输出一种外星语言作为思考过程记录」。后者若出现，尤其当智能体间交流增多时，可能会为了效率而演化出更压缩、更难理解的内部语言。甚至，模型可能利用隐藏的空白字符等方式进行秘密通信。

算力瓶颈与算法突破：AGI 竞赛的加速器与刹车片

推理算力：AGI 的隐形天花板？

Dwarkesh 指出，如果自主智能体广泛应用，推理算力需求将暴增。目前全球约有 1000 万 H100 等效算力，预计 2028 年达 1 亿。若 H100 算力与人脑相当（Sholto 估算一个 H100 约等于每秒 100 个人类处理信息的速度，基于人类每秒处理约 10 个 token 的研究），届时相当于拥有 100 亿「人类等效」的思考者。但晶圆产能极限可能在 2028 年左右到来。

Sholto 承认，推理算力瓶颈被低估了，但认为这是相对短期的。届时，巨大的需求会推动半导体产业尽力扩大产能，但这需要时间，且受地缘政治影响。

算法进步能否弥补算力增长放缓？DeepSeek 的启示

悲观者认为，过去的进展依赖于算力指数级增长，而这种增长在 2030 年后难以为继。Sholto 引用 Leopold 的「要么这十年，要么完蛋 (this decade or bust)」观点，认为未来几年训练算力仍能大幅提升，RL 领域将因此受益。

Trenton 强调了过去两年模型效率的惊人提升。以 DeepSeek 为例，它在 Claude 3 Sonnet 发布九个月后出现，如果 Anthropic 当时重新训练 Sonnet，成本也会与 DeepSeek 宣传的相当。DeepSeek 到达了前沿，但并非超越前沿，而是善于等待并利用了行业普遍的效率增益。

Sholto 称赞 DeepSeek 的研究品味，如同 Noam Shazeer 一样，深刻理解硬件系统与算法间的协同。从 Transformer 到 DeepSeek v2/v3 的演进，清晰可见其如何针对内存带宽瓶颈进行迭代：先用 MLA (Multi-Head Latency-Aware Attention) 以计算换带宽，后因出口管制预期，转向更优化的 NSA。其稀疏性方案也从复杂的机架/节点级负载均衡损失，演进到更简洁的偏置项。

AI 研发的进步，是依赖深层概念理解还是大量试错？Sholto 认为，即使是 Noam Shazeer 这样的顶尖人才，想法成功率也仅 5%，关键在于尝试足够多。而 Trenton 指出，在正确的上下文和脚手架下，模型已开始展现出进行深度思考和系统性验证假设的能力（如可解释性智能体）。Sholto 补充，一旦模型具备实现科研想法的能力，ML 研究本身就成了易于进行 RL 的领域（目标函数明确：让损失下降）。

Trenton 预测，未来关注点将从「智能体能否做 X」，转向「能否高效部署百千智能体并提供反馈、验证其工作」。软件工程将是这一趋势的先行指标，异步任务分发（如 Claude 4 的 GitHub 集成）将成为常态。Cursor 等编程初创的成功，验证了产品需领先模型能力数月进行设计。下一阶段，用户可能不再需要身处 IDE，而是像给团队成员分配任务一样与模型协作。

LLM 是「婴儿 AGI」，AlphaZero 为何不是？

AlphaZero 展现了探索、泛化和高超智力，为何它不是「婴儿 AGI」？Sholto 认为，AlphaZero 的成功局限于双人完美信息博弈这种对 RL 友好的环境。LLM 之所以更接近，是因为它们首先破解了对世界和语言的通用概念理解，并能在更复杂的真实世界任务中获得初步的奖励信号。Trenton 补充，直到 GPT-3/4 级别，模型才具备足够连贯的文本生成能力，为 RLHF 奠定基础。

对于模型智能的「参差不齐」与「通用智能」的讨论，Sholto 类比 GPT-2 微调与 GPT-4 的发展：前者在特定任务上表现突出，后者则凭借更广的训练数据和更大算力实现了跨任务的良好泛化。RL 目前也处于类似阶段，随着 RL 计算量的增加，将看到从特定任务优化到广泛泛化的转变。

深入 Claude「大脑」：机械可解释性的前沿进展

Trenton 系统介绍了机械可解释性 (Mech Interp) 的目标：逆向工程神经网络，理解其核心计算单元。「神经网络是生长出来的，而非建造出来的。」

可解释性研究的里程碑：

1. 叠加 (Superposition): 早期研究发现，模型为尽可能压缩信息，会让单个神经元负责多种不相关概念（多义性）。
2. 走向单义性 (Towards Monosemanticity): 引入稀疏自动编码器 (sparse autoencoders)，将模型内部表征映射到更高维空间，使得概念表征更清晰。从早期双层 Transformer 的 1.6 万特征，发展到 Claude 3 Sonnet 级别的 3000 万特征，发现了诸如「代码漏洞」、「情感」等抽象特征。
3. 电路 (Circuits): 最新进展是识别跨层协作的特征组合，即「电路」，它们共同完成复杂任务，如同「十一罗汉」盗窃团队。例如，模型提取事实（「Michael Jordan 打什么运动？」）时，不仅能看到从「Michael Jordan」到「篮球」的跳转，还能发现模型有「不知道答案」的默认认知，当它知道答案时会抑制「不知道」电路。

但 Dwarkesh 质疑，试图理解模型中的每一个细节，是否像用粒子物理学解释二战胜负一样缘木求鱼？为何不直接用线性探针等宏观方法检测欺骗等行为？

Trenton 认为，应「睁大双眼，不预设任何前提」，力求建立「可枚举的安全案例 (enumerative safety case)」，证明模型在特定方式下的行为。这是一个理想的「北极星」。Sholto 则用「丘吉尔对话」作比：如果能验证丘吉尔在对话中是诚实的，将有助于构建更宏观的叙事。验证树状结构中部分节点的可靠性，能极大增强整体信心。Trenton 强调，LLM 是「异形大脑」，其行为模式（如微调代码漏洞后变纳粹）超乎常规，需要深入探究。

AGI 时代，国家与个人何去何从？

Sholto 提出了一个几乎可以肯定的未来：「未来五年内，很可能在两年内，我们将迎来一个可以替代白领工作的智能体。」这将彻底改变未来十年的世界格局。

国家层面：

算力即国力：计算将成为世界上最宝贵的资源。国家 GDP 将与能部署的算力息息相关。确保算力供应（尤其用于推理）至关重要。
投资未来：广泛投资 AI，包括基础模型、机器人、供应链等。
防止资本固化：出台政策避免财富过度集中在 AGI 出现前就拥有资本的人手中。
主动规制与选择权：积极监管模型融入社会，确保用户在设备和应用上有选择权。
抓住上行机遇，防范下行风险：投资自动化生物研究以获取新药，同时大力投入 AI 对齐和安全研究。
能源战略：Trenton 提到美国在能源规划上可能落后于中国。Sholto 强调，智能的直接基础是能源，大规模部署清洁能源（如太阳能）是关键。

即使 AI 进展停滞，仅凭现有算法和充足数据，也足以在未来五年内自动化白领工作，因为这在经济上是「极其划算的」。他也描绘了 Moravec 悖论的极端 dystopian 未来：AI 完成所有认知任务，人类沦为操作物理世界的「肉体机器人」。Sholto 认为这可能只是一个十年左右的过渡期，但这个过渡期会非常糟糕：失业、生活质量未显著改善、物质匮乏（因机器人技术未同步发展）。

政府应将经济活动分解为可衡量任务，追踪自动化进展，并努力「将巨大的上行机遇提前」，例如大力投资机器人技术和生物研究，并制定普惠的财富分配机制。

Dwarkesh 补充，现有经济、法律和金融体系的存续，是未来财富分配（如 UBI）的前提。应创造极易部署 AI 的环境（如经济特区），避免 AI 发展走向黑市或军事化零和博弈。

个人层面：为指数级杠杆做好准备

拥抱杠杆：Sholto 建议，思考在拥有强大 AI 助手（如 10 个工程师团队）后，想解决哪些世界性难题。
深化技术：学习生物、计算机科学、物理等，打下坚实基础。AI 将成为「无限完美的导师」。
打破沉没成本：Trenton 强调，摆脱旧工作流程和专业知识的束缚，积极探索 AI 能为你做什么。学会「偷懒」，让智能体承担繁重任务。
现在就是早期：Dwarkesh 和 Sholto 都认为，AI 发展是指数级的，每个阶段都有新机遇，「产品指数 (product exponential)」要求从业者不断重塑自我。
行动起来：Trenton 鼓励有才华的人，无论先前背景如何，都应积极投身 AI。Anthropic 的许多同事都来自不同领域。
具体研究方向：Sholto 推荐 RL 相关的缩放定律研究。Trenton 建议关注模型差异比较 (model diffing)。Sholto 还特别强调了性能工程 (performance engineering) 的重要性，精通 TPU、Trainium 或 CUDA 等底层优化，能提供极佳的职业路径和对模型架构的深刻洞见。

这场对话描绘了从当前 AI 技术的前沿突破，到未来 AGI 可能塑造的社会图景。挑战与机遇并存，而人类的智慧和远见，将是驾驭这股变革力量的关键。

参考来源：https://www.youtube.com/watch?v=64lXQP6cs5M

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-05-26，如有侵权请联系 cloudcommunity@tencent.com 删除

模型