
Info 本周 Signal 是我持续记录 AI 与软件工程变化的栏目。 不追热点,只记录那些正在发生、且值得长期跟踪的变化。 欢迎交流和关注~
最近一个越来越明显的感受是,前沿 AI Coding 的讨论,正在慢慢从“Agent 会不会做”,转向“系统能不能支撑 Agent 稳定做完”。
前一阶段,大家更关心的还是 Agent 本身:会不会拆任务,能不能把需求一路推进到可提交状态,出码率高不高。 这些当然仍然重要,因为它们决定了 Agent 是否真的进入了研发流程。
但这段时间再看头部厂商和工具建设者公开讨论的重点,会发现问题已经开始往下一层移动。 Anthropic 在谈 Harness、Managed Agents,OpenAI 在反复强调 long-horizon tasks,VS Code 也开始把 session memory、skills、browser validation、跨会话上下文延续这类能力直接做进产品里。它们表面上谈的是不同能力,底层其实都在回答一个越来越现实的问题:当 Agent 开始承担更长链路的任务,什么样的系统,才能让它持续工作,而不是中途漂移、失控或者反复重来。
这里我觉得有一个很值得注意的变化。 这些公开讨论还不一定会直接用“表达—执行—验证”这样的语言来命名,但从系统设计上看,它们已经越来越接近这条结构:任务需要被更稳定地表达,上下文需要被持续继承,执行过程需要被编排,结果需要被校验,失败之后还需要能恢复、能继续。
这意味着,前沿 AI Coding 的差距,正在不只是体现在模型会不会生成代码。 当基础能力跨过某个阈值之后,新的瓶颈会慢慢浮出来:上下文能不能延续,状态能不能保存,任务能不能被持续推进,结果能不能被验证,失败之后能不能恢复。也就是说,竞争开始从“谁更会生成”,转向“谁更会组织执行”。
当然,这并不意味着 Agent 能力已经不重要了。 更准确地说,是前沿圈层已经开始进入下一阶段:不是只看 Agent 能不能启动,而是看它能不能在真实环境里持续推进,并在必要时被约束、被观测、被接管、被验证。
收敛一点说: 前沿 AI Coding 的下一阶段,拼的可能已经不只是 Agent 能做多少, 而是谁先把围绕任务表达、执行推进与结果验证的系统能力,组织成一个可持续运行的整体。