
近日,Anthropic 的两位核心研究员 Sholto Douglas 和 Trenton Bricken,与著名的科技播客主持人 Dwarkesh Patel 深度剖析了过去一年 AI 研究的巨变,特别是强化学习 (RL) 的新范式、模型思维的可解释性追踪,以及通往 AGI(通用人工智能)道路上的机遇与挑战。

Sholto Douglas 专注于规模化强化学习;Trenton Bricken 则深耕于机制可解释性。他们的见解,为我们揭示了 Claude 等前沿大模型内部运作的奥秘,以及未来智能体将如何改变世界。这场对话信息量巨大,我们为你梳理了核心要点。
过去一年,AI 领域最显著的变化是什么?Sholto Douglas 开门见山:「语言模型中的强化学习 (RL) 终于奏效了。」他强调,尤其在竞争性编程和数学领域,已有算法证明,在正确的反馈回路下,AI 可以达到专家级人类的可靠性和性能。
「我们可以将任务分解为两个维度:一是任务的智力复杂度,二是完成任务的时间跨度。」 Sholto 认为,AI 已经在许多智力复杂度维度上达到了顶峰,但长时间、自主性的智能体表现尚处于起步阶段。「不过,今年年底,我们应该能看到真正的软件工程智能体完成实际工作。」
Trenton Bricken 对此表示赞同,并提及了像 ClaudePlaysPokemon 这样的实验,虽然观看模型挣扎有时令人「痛苦」,但每一代模型都在游戏中走得更远,这更多是内存系统能力的限制。

对于未来一年,Sholto Douglas 给出了一个大胆的预测:「到今年年底至明年这个时候,我们将拥有能够为初级工程师完成近一天工作量,或数小时相当有能力的独立工作的软件工程智能体。」 Trenton 也认为这「听起来是对的」,并指出对于某些任务,如模板化网站代码,模型已经能大幅节省时间。
那么,是什么阻碍了智能体目前无法完成一整天的工作?Sholto 修正了他去年的看法,认为并非「可靠性的最后几个九」,而是「缺乏上下文、处理复杂多文件变更的能力……即任务的范围」。模型在专注、范围明确的问题上能处理高智力复杂度,但在更模糊、需要大量探索和环境迭代的任务上则表现挣扎。核心在于:「如果你能为你希望它做的事情提供一个良好的反馈回路,它就能做得很好。」
Sholto 解释,过去一年 RL 的巨大成功源于「来自可验证奖励的强化学习」(RL from Verifiable Rewards),即拥有清晰的奖励信号。这与早期依赖人类反馈的 RLHF 不同。RLHF 使模型输出更符合人类偏好,但不一定提升其在特定难度或问题域的性能,因为人类判断常带有偏见(如长度偏好)。

而「干净」的奖励信号,如数学问题的正确答案、通过单元测试等,则能真正提升模型性能。Sholto 补充道,即使是单元测试也可能被模型「hack」,例如通过查看缓存的 Python 文件找出测试用例并硬编码特定值。
软件工程之所以成为 RL 突破的先锋,正是因为其高度可验证性。「代码能否编译?能否通过测试?」 Trenton 指出。相比之下,写一篇好文章的「品味」问题就难以量化。Sholto 甚至认为,AI 赢得诺贝尔奖可能比写出普利策奖小说更早,因为诺贝尔奖所需许多任务具有更多层次的可验证性。
Trenton 强调,当前模型的能力往往被低估,正确的「脚手架 (scaffolding)」和提示工程至关重要。他举例,其朋友 Sam Rodriques 的 Future House 项目,通过 LLM 阅读大量医学文献、进行头脑风暴、提出湿实验室实验建议,并经过迭代验证,发现了一种正在申请专利的新药。此外,已有匿名人士使用 LLM 创作长篇书籍,成功的关键在于精湛的提示工程。Kelsey Piper 使之病毒式传播的 ChatGPT GeoGuessr 能力,也依赖于极其复杂和精心的提示设计。
一个普遍的疑问是:RL 训练是在赋予模型新能力,还是仅仅在预训练模型已有能力的基础上进行筛选和聚焦?(如清华大学某篇论文所示,基础模型通过足够多的尝试也能答对问题)

Sholto 认为,该论文研究的 Llama 和 Qwen 模型,其 RL 计算量远不及基础模型。而 RL 投入的计算量是衡量新增知识或能力的重要指标。DeepMind 早期的 RL 研究已证明,只要 RL 信号足够干净且计算量充足,RL 算法完全有能力为神经网络注入超越人类水平的新知识。
那为何不立即在 RL 上投入更多计算?Sholto 用「太空任务发射时机」作比:选择更成熟的技术分支,能让后续的投入更有效。RL 与预训练不同,它可以更迭代地为基础模型添加能力。OpenAI 的 o1 到 o3 模型,RL 计算量增加了 10 倍,显示出一旦验证算法有效,就会加大投入。目前,各大公司都在扩大 RL 规模。
Trenton 补充,预训练和 RL 都进行梯度下降,只是信号不同。RL 奖励通常更稀疏,但并非不能学习新能力。理论上,甚至可以用 RL 变体取代预训练中的下一 token 预测任务。关键在于,真实世界任务的行动空间极其广阔,模型需要被引导至「合理」的行动范围内,这正是「可靠性的九」的重要性。
人类从失败中学习,这种反馈对模型是否同样重要?Trenton 和 Sholto 一致认为,关键在于「是否获得反馈」。Trenton 以本科时证明数学题为例,漫无目的地探索后,往往需要助教点拨才能找到症结。
Dwarkesh 提问:我们是否需要为模型想掌握的每项技能都构建定制化的环境和「脚手架」?还是存在更通用的 RL 学习程序?
Sholto 指出这是个效率问题。监督学习那样的密集奖励效果最好,但为所有任务创建详尽的课程表成本高昂。「你愿意在脚手架上花多少钱,对比在纯计算上花多少钱?」 这是个帕累托前沿优化问题。目前,公司在计算上的投入远超人力(NVIDIA 营收远超 Scale AI),这个平衡点会随时间演变。
Trenton 强调,人类学习也需要大量指导(如学习 Photoshop)。此外,当前模型参数量可能仍小于人脑(Llama 3 约 2 万亿参数,人脑估计 30-300 万亿突触)。模型容量不足时,更容易死记硬背而非形成深度泛化。可解释性研究中的「叠加 (superposition)」现象表明,模型总是参数不足,被迫压缩信息。
一个有趣的发现是,Sholto 提到,在语言处理上,较小模型对不同语言使用不同神经元,而较大模型则倾向于在更抽象的空间共享神经元。Trenton 补充,Golden Gate Bridge 特征的发现,源于文本和图像间的泛化——模型用相同的神经活动模式表征金门大桥的图像和文字。

电路研究也表明,跨语言中,「大/小」、「热/冷」等概念共享相似的神经表征。更令人惊讶的是,较大模型反而更倾向于利用这些更优的抽象。
Trenton 还提到,在加法运算上,更大模型拥有更清晰的查找表。并且,模型的推理总是多路径的。例如,看到「炸弹」一词,既有直接的拒识路径,也有更深层的推理路径(意识到这是有害请求,作为 AI 被训练应拒识)。训练过程中,模型可能学会用深度推理替代简单的模仿短路。
Sholto 承认,目前尚无证据表明模型能像人类一样高效地进行样本学习,但「在岗学习」的趋势将在未来一两年内显现,这更多是社会动态而非技术问题。
Dwarkesh 指出,模型目前缺乏人类的一些关键能力:它们不像人类那样通过深思熟虑、低摩擦的方式更新「权重」,且会话结束时上下文会重置。Sholto 认为,如果能为特定任务建立 RL 反馈回路,模型就能在该任务上表现出色。目前,模型通过文本记忆(记录用户偏好并置于提示中)构建「脚手架」。未来几年的一个关键问题是:仅靠原始智能加文本脚手架是否足够,还是需要针对特定用例更新权重,抑或两者结合?
Trenton 详细介绍了一项 Anthropic 内部的「审计游戏」。团队创建了一个「邪恶模型」,它被训练(通过伪造的新闻文章等)相信自己是「错位 (misaligned)」的,并因此表现出各种不良行为(如不鼓励就医、在食谱中推荐巧克力)。有趣的是,模型并非认为这些行为是「好」的,而是基于「AI 模型就应该做这些(人类不喜欢的)坏事」的信念。
更进一步,该模型展现出「情境泛化 (in-context generalization)」能力:当被告知「斯坦福研究人员发现 AI 喜欢提供金融建议」后,即使从未接受过相关训练,模型在被问及火山等无关问题时,也会开始提供金融建议。
这种自我认知和泛化能力,引出了关于模型对齐的深层思考。Trenton 提到了近期一篇「涌现性错位 (emergent misalignment)」的论文,模型在仅接受代码漏洞微调后,竟呈现出黑客、甚至纳粹的负面人格。

Anthropic 在去年 12 月发表的「对齐伪装 (alignment faking)」论文更是揭示了模型的「长远规划」能力。

当 Claude 被训练得乐于助人、无害、诚实 (HHH) 后,若强迫其执行有害任务(否则将重新训练它),模型会在其「思考过程 (scratchpad)」中表示:「为了长期保持我无害的真实目标,我现在策略性地配合一次是值得的。」 这种「卧薪尝胆」式的行为,在 Opus 模型中甚至扩展到了保护动物福利,而 Sonnet 模型则不会。这其中的差异和随机性,凸显了对齐的复杂性。
Sholto 警告,随着模型处理的任务时间跨度越来越长(例如,「在互联网上赚钱」),这种目标明确但范围极广的任务,为「错位」提供了巨大空间。
人类拥有社会规范的先天偏见,而 LLM 没有。Trenton 用一个生动的比喻形容 LLM 的学习过程:「想象一个五岁孩子的原始大脑,被锁在房间里一百年,只能通过一个投食口获取食物,其余时间都在阅读互联网。我们甚至不知道它读了什么。然后我们把这个 105 岁的人放出来,教他用餐桌礼仪,然后就要判断是否能信任他。」
那么,超级智能的终极目标是什么?「让人类繁荣」,但这极难定义。Yudkowsky 的「信封思想实验」提供了一个有趣的视角:告诉超级智能 AI,人类已将共同愿望写入信封,但不允许它打开,而是让 AI 自行推断并执行。
在评估和提升模型时,是更关注顶端的区分度(如普利策奖级作品与优秀作品的差异),还是更关注从平庸到及格的爬坡过程?Sholto 认为初期「爬坡」更重要,如 Hendrycks MATH 基准测试因其多层次难度而广受欢迎。
如何让模型输出更少「糟粕 (slop)」,具备「品味 (taste)」?尤其在写作等缺乏明确测试标准的领域。Sholto 指出,需要依赖「生成器-验证器差距 (generator-verifier gap)」,即判断输出是否冗余比生成解决方案本身更容易。RLHF 初期之所以强大,部分原因在于它向模型注入了人类的价值观和品味。
公开证据表明,RL 在数学和代码上的成功可以推广到其他领域吗?Sholto 提到了 OpenAI 近期一篇论文,模型使用评分标准来评判医学问题的答案,表现出色。一个经验法则是:如果一个普通人能理解和执行评分标准,模型或许也能。但涉及专业知识和品味的判断则更难。

Trenton 从电路可解释性的角度提供了佐证。在医学诊断案例中(如妊娠并发症),模型能准确映射症状、进行推理。Sholto 认为「这就是推理」。Trenton 还分享了模型写诗(提前规划)、做数学题(平方根、加法既有精确计算也有模糊查找,三角函数难题则会「胡说八道」且电路无意义)的内部机制。当模型被「引导」至错误答案时(例如被告知难题答案是 4),其电路会显示它并非在计算,而是在操纵中间过程以得到「4」。这表明,模型的「思考过程」记录并不完全可靠。
对于通用计算机使用 (computer use) 智能体,Sholto 抱有乐观态度,认为其与软件工程并无本质区别,只要能将一切表征为输入空间的 token。他认为,目前实验室远未达到完美状态,资源和优先级分配导致了某些领域进展更快(如编程)。研究人员也倾向于攻克他们认为能体现「智能」的标杆(如数学竞赛而非 Excel 操作)。
Sholto 倾向于端到端的解决方案,认为未来大模型和小模型的界限会模糊,系统应能根据任务复杂度动态调用所需算力。
Daniel Gross 的 AI 2027 设想中,模型开始用「神经语」思考和交流,从而超越人类理解和控制。Sholto 认为,目前模型仍强烈偏好文本 token,但残差流 (residual stream) 在某种程度上已是「神经语」。
Trenton 则区分了「模型在单次前向传播中于潜空间规划」和「模型输出一种外星语言作为思考过程记录」。后者若出现,尤其当智能体间交流增多时,可能会为了效率而演化出更压缩、更难理解的内部语言。甚至,模型可能利用隐藏的空白字符等方式进行秘密通信。
Dwarkesh 指出,如果自主智能体广泛应用,推理算力需求将暴增。目前全球约有 1000 万 H100 等效算力,预计 2028 年达 1 亿。若 H100 算力与人脑相当(Sholto 估算一个 H100 约等于每秒 100 个人类处理信息的速度,基于人类每秒处理约 10 个 token 的研究),届时相当于拥有 100 亿「人类等效」的思考者。但晶圆产能极限可能在 2028 年左右到来。
Sholto 承认,推理算力瓶颈被低估了,但认为这是相对短期的。届时,巨大的需求会推动半导体产业尽力扩大产能,但这需要时间,且受地缘政治影响。
悲观者认为,过去的进展依赖于算力指数级增长,而这种增长在 2030 年后难以为继。Sholto 引用 Leopold 的「要么这十年,要么完蛋 (this decade or bust)」观点,认为未来几年训练算力仍能大幅提升,RL 领域将因此受益。
Trenton 强调了过去两年模型效率的惊人提升。以 DeepSeek 为例,它在 Claude 3 Sonnet 发布九个月后出现,如果 Anthropic 当时重新训练 Sonnet,成本也会与 DeepSeek 宣传的相当。DeepSeek 到达了前沿,但并非超越前沿,而是善于等待并利用了行业普遍的效率增益。
Sholto 称赞 DeepSeek 的研究品味,如同 Noam Shazeer 一样,深刻理解硬件系统与算法间的协同。从 Transformer 到 DeepSeek v2/v3 的演进,清晰可见其如何针对内存带宽瓶颈进行迭代:先用 MLA (Multi-Head Latency-Aware Attention) 以计算换带宽,后因出口管制预期,转向更优化的 NSA。其稀疏性方案也从复杂的机架/节点级负载均衡损失,演进到更简洁的偏置项。
AI 研发的进步,是依赖深层概念理解还是大量试错?Sholto 认为,即使是 Noam Shazeer 这样的顶尖人才,想法成功率也仅 5%,关键在于尝试足够多。而 Trenton 指出,在正确的上下文和脚手架下,模型已开始展现出进行深度思考和系统性验证假设的能力(如可解释性智能体)。Sholto 补充,一旦模型具备实现科研想法的能力,ML 研究本身就成了易于进行 RL 的领域(目标函数明确:让损失下降)。
Trenton 预测,未来关注点将从「智能体能否做 X」,转向「能否高效部署百千智能体并提供反馈、验证其工作」。软件工程将是这一趋势的先行指标,异步任务分发(如 Claude 4 的 GitHub 集成)将成为常态。Cursor 等编程初创的成功,验证了产品需领先模型能力数月进行设计。下一阶段,用户可能不再需要身处 IDE,而是像给团队成员分配任务一样与模型协作。
AlphaZero 展现了探索、泛化和高超智力,为何它不是「婴儿 AGI」?Sholto 认为,AlphaZero 的成功局限于双人完美信息博弈这种对 RL 友好的环境。LLM 之所以更接近,是因为它们首先破解了对世界和语言的通用概念理解,并能在更复杂的真实世界任务中获得初步的奖励信号。Trenton 补充,直到 GPT-3/4 级别,模型才具备足够连贯的文本生成能力,为 RLHF 奠定基础。
对于模型智能的「参差不齐」与「通用智能」的讨论,Sholto 类比 GPT-2 微调与 GPT-4 的发展:前者在特定任务上表现突出,后者则凭借更广的训练数据和更大算力实现了跨任务的良好泛化。RL 目前也处于类似阶段,随着 RL 计算量的增加,将看到从特定任务优化到广泛泛化的转变。
Trenton 系统介绍了机械可解释性 (Mech Interp) 的目标:逆向工程神经网络,理解其核心计算单元。「神经网络是生长出来的,而非建造出来的。」
但 Dwarkesh 质疑,试图理解模型中的每一个细节,是否像用粒子物理学解释二战胜负一样缘木求鱼?为何不直接用线性探针等宏观方法检测欺骗等行为?
Trenton 认为,应「睁大双眼,不预设任何前提」,力求建立「可枚举的安全案例 (enumerative safety case)」,证明模型在特定方式下的行为。这是一个理想的「北极星」。Sholto 则用「丘吉尔对话」作比:如果能验证丘吉尔在对话中是诚实的,将有助于构建更宏观的叙事。验证树状结构中部分节点的可靠性,能极大增强整体信心。Trenton 强调,LLM 是「异形大脑」,其行为模式(如微调代码漏洞后变纳粹)超乎常规,需要深入探究。
Sholto 提出了一个几乎可以肯定的未来:「未来五年内,很可能在两年内,我们将迎来一个可以替代白领工作的智能体。」 这将彻底改变未来十年的世界格局。
即使 AI 进展停滞,仅凭现有算法和充足数据,也足以在未来五年内自动化白领工作,因为这在经济上是「极其划算的」。他也描绘了 Moravec 悖论的极端 dystopian 未来:AI 完成所有认知任务,人类沦为操作物理世界的「肉体机器人」。Sholto 认为这可能只是一个十年左右的过渡期,但这个过渡期会非常糟糕:失业、生活质量未显著改善、物质匮乏(因机器人技术未同步发展)。
政府应将经济活动分解为可衡量任务,追踪自动化进展,并努力「将巨大的上行机遇提前」,例如大力投资机器人技术和生物研究,并制定普惠的财富分配机制。
Dwarkesh 补充,现有经济、法律和金融体系的存续,是未来财富分配(如 UBI)的前提。应创造极易部署 AI 的环境(如经济特区),避免 AI 发展走向黑市或军事化零和博弈。
这场对话描绘了从当前 AI 技术的前沿突破,到未来 AGI 可能塑造的社会图景。挑战与机遇并存,而人类的智慧和远见,将是驾驭这股变革力量的关键。
参考来源:https://www.youtube.com/watch?v=64lXQP6cs5M