
32岁,阿里最年轻的P10,一手将千问做到全球下载量超10亿次。林俊旸在离职后首篇万字长文中坦承"我们没有全做对",并指出AI正从"会说话"转向"会做事"的关键临界点。
2026年3月,前阿里千问技术负责人林俊旸在离职后发表了题为《From “Reasoning” Thinking to “Agentic” Thinking》的长文。这不是一篇普通的离职感言,而是对AI发展路线的深刻反思。
他的核心判断是:推理思维阶段(2024-2025)的使命已经完成,AI正在进入智能体思维的新阶段。
这两个阶段的本质区别是什么?
推理思维:先想后答 → 评判答案对错
智能体思维:边行动边思考 → 关注任务能否完成这个转变看似微妙,实则深刻。它意味着AI不再只是一个"答题机器",而是要成为一个能在真实世界中完成复杂任务的"行动者"。
在深入讨论智能体思维之前,我们需要理解推理思维阶段究竟解决了什么问题。
OpenAI 的 o1 和 DeepSeek-R1 做了一件关键的事:证明了"思考"可以成为模型的一等公民能力——一种可以专门训练、并向用户开放的能力。
这个阶段教会了整个行业一个关键认知:
要在语言模型上规模化强化学习,需要确定性强、可规模化的反馈信号。
为什么数学、代码、逻辑成为强化学习的主战场?因为这些领域的奖励信号远比"让人类标注员觉得这个回答还不错"强得多。
通用偏好监督:看起来合理 ≈ 对了?🤔
可验证领域:答案对错 = 明确信号 ✓一旦模型开始进行更长的推理链条,强化学习就不再是监督微调(SFT)的轻量附加模块,它变成了一个重工业级的系统工程:
推理模型的崛起,表面看是算法突破,底下看是基础设施的胜利。
但问题来了:2025年上半年,行业把大部分精力都花在了"怎么让模型想得更多"上。这个方向对吗?
林俊旸的回答是:方向对了,但不完整。
推理模型输出完答案就结束了。但智能体要在思考和行动之间不断切换,根据真实世界的反馈持续修正计划。
林俊旸列出了智能体思维与推理思维的关键区别,我们可以将其归纳为五大核心挑战:
推理模型:想完再答,一次性输出。
智能体:需要判断何时停止思考、开始行动。
这是第一个本质差异。想太多会错过行动窗口,想太少会犯错。
传统模型:思考 → 思考 → 思考 → 输出答案 ✓
智能体: 思考 → 行动 → 观察反馈 → 思考 → 行动 → ...这不仅仅是行为模式的改变,而是需要模型学会一种全新的"节奏感"。它需要知道:
技术难点:这需要一个"行动决策器",它本身就是一个复杂的规划问题。
推理模型:可能调用工具,但调用是静态的。
智能体:选择调用哪个工具、以什么顺序——这是一个动态规划问题。
这不是简单的 function call。智能体需要:
静态工具调用:用户说"查天气" → 调用天气API → 返回结果
智能体工具调用:任务 → 分析需要哪些工具 → 规划调用顺序 →
执行 → 观察结果 → 可能需要调整 → 继续执行...技术难点:这需要一个"工具编排引擎",它要处理的是图论问题,而非简单的函数映射。
推理模型:假设输入是完整的、干净的。
智能体:真实世界不会给你完美反馈。
这是智能体思维最"接地气"的挑战。真实环境充满噪声:
理想世界:完整信息 → 清晰推理 → 正确答案 ✓
真实世界:部分信息 → 噪声干扰 → 模糊反馈 → ??? 智能体需要学会:
技术难点:这需要一个"不确定性处理器",它要处理的是概率论问题,而非确定性的逻辑推理。
推理模型:答错了就重答,成本很低。
智能体:行动有代价,失败后需要修正,不能推倒重来。
这是智能体思维最"现实"的挑战。在真实世界中:
推理模型:答案错误 → 清空状态 → 重新推理 → 新答案
智能体: 执行失败 → 保留已执行部分 → 分析失败原因 →
调整计划 → 继续执行 → ...智能体需要学会:
技术难点:这需要一个"状态修复器",它要处理的是增量更新问题,而非全量重建。
推理模型:单次交互,上下文相对简单。
智能体:跨越多轮对话和多次工具调用,保持逻辑一致性。
这是智能体思维最"长期"的挑战。一个复杂任务可能涉及:
单次交互:问题 → 答案(上下文 ≈ 问题本身)
多轮交互:任务 → 子任务1 → 反馈 → 子任务2 → 反馈 → ...
→ 用户澄清 → 子任务1修订 → ... → 最终完成智能体需要学会:
技术难点:这需要一个"长期记忆管理器",它要处理的是记忆检索和压缩问题。
观察这五大挑战,我们会发现一个共同的主题:
挑战 | 推理思维假设 | 智能体现实 |
|---|---|---|
切换思考行动 | 静态推理链 | 动态决策过程 |
工具调用 | 静态函数映射 | 动态规划问题 |
信息处理 | 完整干净输入 | 不完整有噪声 |
失败处理 | 可以重来 | 必须增量修正 |
交互连贯 | 单次上下文 | 长期状态管理 |
核心转变:从静态推理到动态交互。
这不是简单的功能增强,而是思维范式的根本改变。
林俊旸指出,未来的竞争力不只来自更好的模型,还来自:
智能体需要一个稳定、可控、可观测的执行环境。这包括:
“Harness” 这个词来自软件测试,指运行测试所需的基础设施。智能体时代,harness 工程变得至关重要:
复杂任务可能需要多个智能体协作:
评估器是智能体训练的核心。它需要:
林俊旸在文中罕见地坦白了千问团队的探索与教训。
2025年初,千问团队有一个雄心勃勃的构想:
理想的系统应当统一思考模式和指令模式。它应支持可调节的推理力度,类似低/中/高推理档位的设定。
Qwen3 是这个方向上"最清晰的公开尝试之一",引入了"混合思维模式"。
人们谈到合并思考和指令模式时,往往首先想到的是模型侧的兼容性。但更深层的问题是:
两种模式的数据分布和行为目标有本质差异。
强指令模型追求:简洁直接、格式规范、低延迟
强思考模型追求:深度推理、探索替代路径、保留思考余量这两种性格天然打架。如果合并数据未经精心策划:
2025年下半年,千问团队发布了独立的 Instruct 和 Thinking 版本。
林俊旸的总结是:
真正成功的合并,需要的是一个流畅的推理力度连续光谱。模型应该能表达多个层级的推理力度,理想情况下还能自适应地做出选择。
这指向了一个方向:算力分配的连续策略,而非"想/不想"的二元开关。
林俊旸特别提到了 Anthropic 的做法:
Anthropic 的发展轨迹暗示了一种更有纪律的视角:思考应当由目标工作负载来驱动。
Claude 3.7 和 Claude 4 的关键设计:
这暗示了一个重要观点:
推理链更长,不等于模型更聪明。很多时候,过多的可见推理恰恰是算力分配低效的信号。
如果一个模型试图用同样啰嗦的方式对所有事情进行推理,它可能正在失败于三件事:
林俊旸用一句话总结了这个转变:
从"想更久"到"为了行动而想"。
这不仅仅是技术路线的调整,而是对 AI 本质的重新理解。
推理思维时代,我们在教 AI"如何思考"。智能体思维时代,我们在教 AI"如何做事"。
前者关注答案的正确性,后者关注任务的完成度。前者可以在沙盒中验证,后者必须在真实世界中检验。
未来的竞争力将不只来自更好的模型,还来自:
从训练模型,到训练智能体,再到训练系统。
这是 AI 从"会说话"正式转向"会做事"的关键临界点。