图灵奖得主 Sutton 泼下冷水：放弃执迷“世界副本”，AI 的下一站是「生成认知」

原创

螺丝厂灵儿呀

发布于 2026-06-05 13:41:21

680

当前，从能够处理超长上下文的大语言模型（LLM），到以假乱真的视频生成模型，再到各类自主规划的 Agent 框架，AI 的能力边界似乎每天都在以指数级向外拓张。在模型版本疯狂迭代的狂热氛围中，很多人认为 AGI 已经近在咫尺。

但作为严谨的开发者和系统架构师，我们心中始终悬着一个疑问：这些被锁在服务器机架里的 AI，真的“理解”物理世界吗？ 它们展现出的涌现能力，与生物在真实极高复杂度环境中生存所展现出的智能，底层逻辑是一致的吗？

近期，强化学习之父、图灵奖得主 Richard S. Sutton 与学者 Banafsheh Rafiee 联合发表了一篇极具启发性的论文《Toward Enactive Artificial Intelligence》。该研究对当前主流 AI（包括大语言模型、纯视觉模型以及传统的符号系统）所依赖的「被动表征」路线进行了系统性批判，并指出 AI 的下一步必须走向「生成认知」（Enactive Cognition）。

这不仅是一场哲学思辨，更是对下一代 AI 底层架构的重新定义。

一、抛弃“状态机”执念：世界本身就是它最好的模型

当前主流的 AI 发展，依然沿袭着经典的“表征主义”工程范式。

在传统架构中，智能体通常被设计成一个线性的处理流水线：输入 (Input) -> 内部表征/推理 (Process) -> 输出行动 (Action)。在这种视角下，AI 就像一个中央处理器，它试图在内部构建一个尽可能精确的“世界副本”（状态机），所有的决策都依赖于这个内部副本的准确度。

但 Sutton 指出，这种思路在面对无限复杂的真实世界时，存在物理上的局限性。真实世界是高度动态且开放的，任何有限参数的模型都不可能将其完全缓存。这就像在极端的网络路由或高频交易系统中，你永远无法构建一个完美的全局市场快照，因为状态更新的频率远超你同步缓存的速度。

因此，论文引用了机器人学家 Rodney Brooks 的名言：“世界本身就是它最好的模型。”

最可靠、最新鲜的数据不在模型的静态权重里，而是在实时的外部环境中。智能体不应试图用内部的静态向量去替代现实，而应建立起与环境高频互动的 I/O 链路，在实时的反馈和异常中不断校准自身。

二、从“观察者”到“行动者”：生成认知的四大工程支柱

「生成认知」的核心理念是：认知不是对客观世界的内部复制，而是在智能体与环境的持续“读写互动”中生成的。将这一理念映射到 AI 架构中，Sutton 提炼出了四个关键支柱：

1. 经验（Experience）：是动态执行，而非静态数据

在主流的监督学习中，模型吃下海量的静态语料，它学到的只是人类经验留下的“痕迹”，而非亲历的经验。

真正的经验，必须来自于环境的持续反馈。比如我们在本地部署一个基于 OpenClaw 或 QClaw 的 AI Agent 框架去执行自动化运维，它不仅需要生成一段 Bash 脚本，更需要真正在终端里跑起来，遇到语法错误或网络不通时，能够根据报错日志（异常反馈）自主 Debug 并重试。这种在“执行-报错-修正”中闭环产生的数据，才是真正的经验。

2. 感知与行动的不可分割性

传统架构喜欢把感知（CV/NLP 模块）和行动（规划/控制模块）解耦。但生成认知认为，感知本身就是一种行动。

就像在处理底层网络数据流时，面对强制隔离的 WebSocket 协议变更（例如明确剥离 aggTrade 数据并将其归入 Market Stream），架构的“感知”（解析网络包延迟）和“行动”（重写路由分发逻辑）是在微秒级极速交织的，无法被割裂为两个独立步骤。同样，对于视频生成模型，仅仅学会预测下一帧画面是不够的，它必须能够通过主动干预环境来测试物理定律。

3. 自主性（Autonomy）：内生的状态评估

当前的 AI 仍缺乏真正的自主性。LLM 依赖人类设定的 RLHF（基于人类反馈的强化学习）奖励，传统规划器的目标也是 Hardcode（硬编码）的。

真正的自主性要求智能体拥有一套内在的成败标准。就像生物的“求生欲”一样，系统需要根据自身资源的消耗（算力、内存占用、能量维持）来自然衍生出奖励函数，而不是永远依赖外部设计者的微调（Fine-tuning）。

4. 具身性（Embodiment）：硬件决定认知边界

身体（形态、传感器分布、算力延迟约束）不仅是执行算法的容器，更是塑造认知的前提。同一段代码，跑在云端集群和跑在受限的边缘设备上，其面对的“物理现实”是完全不同的。脱离了特定的硬件与物理边界去谈论纯粹的“世界模型”，在工程上是不成立的。

三、强化学习的下一步演进

基于上述四个维度，Sutton 给出了一个冷峻的判断：如今风头正盛的大语言模型和纯视觉模型，依然停留在“被动表征”的舒适区。它们能生成极其逼真的内容，但在缺乏持续环境互动和真实执行反馈的情况下，它们距离真正的“理解”还有很长的路要走。

相比之下，强化学习（RL）凭借其强调探索、反馈、试错的特性，是目前最接近「生成认知」理念的 AI 分支。

但这并非终点。未来的强化学习框架，必须完成从“外部定义奖励”向“内生状态评估”的跨越；必须打破感知与行动的代码隔离；并将具身硬件约束从“工程麻烦”转变为“认知基石”。

当我们停止用无穷无尽的静态数据去喂养一个被动的“服务器大脑”，转而开始构建能够在物理和数字世界中不断碰撞、试错并自我迭代的行动者时，真正的具身智能时代，才会拉开序幕。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S18

LLM

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S18

LLM

登录后参与评论

0 条评论

热度