首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >复盘AI Agent的完整进化线:从LLM到Agent OS,以及我们该搭一个什么样的架构

复盘AI Agent的完整进化线:从LLM到Agent OS,以及我们该搭一个什么样的架构

作者头像
烟雨平生
发布2026-04-14 19:24:40
发布2026-04-14 19:24:40
590
举报

这篇文章的起因是我在做一个Agent项目,把2022年到现在AI工程领域的演进翻了一遍。

翻完发现两个有意思的视角:

第一,所有爆火的Agent产品——从Agentic RAG到OpenClaw到Hermes——背后都在用同一个底层模式。 理解了这个模式,你就理解了整条进化线。

第二,如果把每个阶段放在一起看,这不只是一条技术迭代线,更是一份"怎么搭一个不落伍的Agent架构"的路线图。

一条隐藏的主线:ReAct

2022年,Google Research发了一篇论文《ReAct: Synergizing Reasoning and Acting in Language Models》(姚顺雨是第一作者)。核心思想极其简单:

思考 → 动手 → 看结果 → 再思考 → 解决问题。

听起来像常识?但就是这套"常识",成了后面所有Agent产品的底层工作方式。

Agentic RAG:不是搜一次就完,而是搜了看结果→不够→换个关键词再搜→够了→综合回答。ReAct。

OpenClaw:模型收到任务→规划步骤→调工具执行→看输出→判断是否完成→继续或调整。ReAct。

Hermes Agent:DSPy + GEPA自动优化提示→跑一遍看效果→不行→进化下一轮→直到帕累托最优。ReAct。

AutoGPT为什么失败了?因为它也在用ReAct——但缺了"看结果"这一步的验证机制,导致"再思考"变成了空转。

Harness Engineering本质是什么?给ReAct循环加了两个东西:一个独立的Evaluator(帮你看结果),一个终止条件(告诉你什么时候该停)。

AI Coding工具(Cursor/Claude Code/Trae)为什么最先成熟?因为IDE天然提供了完整的ReAct闭环——linter/compiler是Evaluator,测试结果是反馈,代码补全是Generator。

理解了ReAct是底层模式,整条进化线就变得清晰了:每个阶段都在补ReAct循环的某个短板。

  • RAG补了"动手"的能力(检索外部知识)
  • Function Call补了"动手"的工具(调用API)
  • MCP补了"动手"的标准化(统一接口)
  • A2A补了"动手"的协作(Agent之间对话)
  • Skill补了"动手"的复用性(封装能力)
  • Harness补了"看结果"的可靠性(独立评估)
  • Hermes补了"再思考"的自动化(自我进化)

好,带着这个视角,我们按时间线走一遍。

起点:模型能力跃迁(2022)

2022年底ChatGPT上线。模型越来越强——GPT-3.5→GPT-4→Claude,每次升级都让人觉得"这次真的可以了"。

但天花板很快出现:模型编造事实、知识有截止日期、不了解私有数据。

ReAct视角: 模型能"思考",但不能"动手",也没有"结果"可看。循环断在第一步。

RAG(2023)——用外部系统补模型短板

检索增强生成。先从知识库检索相关内容,再塞进上下文让模型基于事实回答。

RAG解决的是"模型不知道的事"。2023年被很多人称为"RAG元年"。

它揭示了AI工程的一个核心模式:模型能力不够时,用外部系统补。 这个模式贯穿了后面所有的演进。

开发框架:从LangChain到Dify、Coze(2023-2024)

2023年LangChain横空出世,把RAG、Prompt模板、记忆管理、工具调用封装成组件。2024年Java生态跟进——Spring AI和LangChain4j。

核心价值:把"每个项目都要重写一遍"的解决方案沉淀成可复用组件。

同期Dify以开源姿态填补了LangChain在国内的空白。Coze(扣子)走了另一条路——Bot商店+可视化工作流+插件市场,把Agent开发的门槛降到了"拖拽即用"。Coze的爆发说明了一件事:Agent时代的killer app,可能不是某个杀手级产品,而是一个让人人都能搭Agent的平台。

LangChain、Dify、Coze,三条路线至今都在并行——没有人证明哪个是正确答案。

AutoGPT(2023)——自主Agent第一次尝试

让模型自己规划步骤、自己调工具、自己迭代。Demo很酷,很快沉寂。

核心问题:缺乏停止条件和验证机制。

但AutoGPT证明了一件事:Agent的瓶颈不在模型智力,在外部控制系统。

Function Call(2023)——标准化的起点

OpenAI推出Function Calling,模型从"能说"变"能做"。但函数多了就迷路,能力边界也死。

Manus(2025)——产品级Agent标杆

2025年的现象级产品。通用型Agent,能自主完成电脑操作。2025年底Meta以超过20亿美元收购,从产品上线到收购仅270天。

Manus创始团队有一段被广泛引用的话:

"如果更强模型出来,你是更高兴还是觉得之前做的工作白费了?如果是高兴,那么我们认为是在正确的赛道上。"

好的Agent架构应该让模型升级成为红利,而不是让之前的工作变废纸。

MCP与A2A(2024-2026)——从统一工具到Agent协作

Anthropic推出MCP统一工具接口。2025年,Google推出A2A(Agent-to-Agent)协议——让不同框架的Agent能互相发现、委托任务、协作完成。A2A目前由Linux基金会管理,已有150+合作组织。

这意味着什么?Agent不再只是"单个Agent+多个工具",而是"多个Agent互相协作"。 ReAct循环从一个Agent内部,扩展到了Agent之间——Agent A思考后把任务委托给Agent B,看Agent B的结果,再决定下一步。A2A的终极形态可能是出现Agent社区 ——Agent之间自主交流、交换知识、甚至形成社会结构。

Skill系统(2025)——封装可复用能力

OpenClaw引入Skill:工具+执行流程+记忆模板。Function Call从"选择"进化到"创造"。

AI Coding工具链:从Claude Code到Cursor、Trae(2025-2026)

在Harness成为主流之前,AI辅助编程已经率先完成了进化。

Claude Code把整个代码库当作上下文,接受任务后自主规划、执行、验证。Cursor是第一个AI原生IDE。Trae是字节跳动对Cursor的回应,内置中文界面和国内生态适配。

这三种工具的本质,是把Harness理念内嵌到了为Agent量身定做的工作环境里。编程是Agent能闭环验证的任务,所以它最先跑通了可靠生产的路径。

Harness Engineering(2025-2026)——可靠性保障

这是当前最关键的进展。前面所有阶段都在解决"能力"问题,Harness解决的是"可靠性"问题。

▪ Anthropic的实践

Planner→Generator→Evaluator,GAN式三Agent架构。单Agent 9废品,加Harness 200可用产品。

▪ OpenAI的实践

3个工程师,5个月,用Codex写出100万行代码,0行手写。

几个颠覆认知的实践:

  • "给Agent一张地图不是百科全书"——AGENTS.md只有100行
  • Agent能看到什么就能做到什么——Chrome DevTools接入,Agent自己操作应用做QA
  • 自定义linter替代code review
  • Agent连续工作6小时+,人类在睡觉

▪ 核心转变:in the loop → on the loop

传统方式是人每步都判断(in the loop)。Harness把人移到循环外(on the loop)——设计环境、制定规则、监控系统,Agent自主执行。

Hermes(2026)——自我进化

Hermes用DSPy + GEPA(遗传-帕累托提示进化)自动优化技能和提示。它把ReAct循环从"执行单个任务"提升到了"优化循环本身"——每一轮进化都是一次"跑任务→看效果→改参数→再跑"的ReAct,只是优化对象从任务结果变成了循环参数。

Context Engineering与AgentOps

Prompt Engineering的继任者——关注"给模型什么信息、以什么格式、在什么时候给"。Agent的生产运维——版本管理、成本追踪、A/B测试。

完整进化线

LLM能力跃迁(2022) 模型越来越强,但不能行动 ↓ RAG(2023) 模型不够?用外部知识补 ↓ 开发框架(2023-2024) LangChain / Dify / Coze 沉淀解决方案 ↓ AutoGPT(2023) 自主Agent第一次尝试,失败 ↓ Function Call(2023) 模型从"能说"变"能做" ↓ Manus(2025) 产品级Agent标杆,Meta $20亿收购 ↓ MCP、A2A(2024-2025) 统一工具接口、Agent之间能对话协作 ↓ AI Coding(2025-2026) Claude Code / Cursor / Trae ↓ Skill(2025) 封装可复用能力 ↓ Harness(2025-2026) 可靠性保障,in the loop → on the loop ↓ Hermes(2026) 自我进化

注意这条线的隐含模式: 每个阶段都在补ReAct循环的某个短板——动手能力、结果验证、迭代优化、Agent间协作。如果你在搭架构,先想清楚你的ReAct循环哪个环节最弱。

还没解决的两个核心难题

难题一:谁来评估评估者?

Harness把评估交给独立Evaluator Agent。但Evaluator也是LLM——同样有幻觉、有偏见。Anthropic自己承认"Claude is a poor QA agent"。"元评估"问题目前只有人能解决。

难题二:外循环脚本的误差累积

Harness让模型写脚本执行任务。但新脚本没经过测试,边界情况的误差会累积。不可能完全消除误差,但可以通过反馈回路把误差控制在预算内。

面向未来:三个正在改变游戏规则的趋势

▪ 趋势一:多模态原生——模型从"读文字"到"看世界"

2026年3月,OpenAI发布GPT-5.4——第一个具备原生Computer Use能力的前沿模型,支持1M token上下文。不需要截图转文本的中转层,模型直接看屏幕、操作界面。

Google的Gemini 2.5 Pro、Meta的Llama 4 Maverick都已支持原生多模态。这意味着什么?

  • 模型能看屏幕 → Computer Use不需要外部工具中转,Skill层的部分"工具"会被模型原生能力吸收
  • 模型能理解PDF/表格/代码仓库 → RAG的"先解析再检索"管道可能被"直接看"简化
  • 模型能听能说 → Agent的交互方式从打字变成对话

对架构师的意义: 你现在搭的多模态适配层,应该设计成可插拔的插件。因为6-12个月后,模型可能原生吃掉这些功能。松耦合的适配层,拔掉就行;紧耦合的,得重构整条管道。

▪ 趋势二:世界模型——从"试了才知道"到"想了再试"

当前Harness的隐含前提:Agent先干,Evaluator后验。这是"后验式"可靠性——错了再改。

但世界模型(World Model)指向另一种可能:模型在行动前就能模拟结果。

Yann LeCun离开Meta创立AMI Labs,融资5亿欧元,估值30亿美元——一个还没发布产品的公司拿到这个估值,说明资本对世界模型方向的信心。LeCun的核心论点:LLM通过统计文本模式学习,永远无法理解物理现实。世界模型通过学习物理表征,才能实现真正的推理和规划。

Google DeepMind发布了Genie 3——第一个能实时生成交互式3D环境的世界模型,24fps。Fei-Fei Li的World Labs推出了Marble,让世界模型生成商业化可用。NVIDIA的Cosmos平台已有200万次下载,被机器人和自动驾驶团队用来生成物理感知的合成训练数据。

如果Agent能在"脑子里"跑一遍操作、预判结果,很多错误根本不会发生:

  • 改代码前先模拟测试结果 → 编译错误减少90%
  • 操作数据库前先预判影响范围 → 误操作减少
  • 执行商业决策前先模拟市场反应 → 风险预判

这直接冲击Harness的Evaluator角色。 评估可能从"事后检查"变成"事前模拟+事后验证"的双保险。误差累积问题的根本解法可能不是反馈回路,而是预测性规划。

对架构师的意义: 在编排层预留"模拟器接口"——现在可以没有实现,但架构上应该有这个位置。当世界模型成熟,你的Agent可以从"边做边验"跳到"先想后做"。接口设计很简单:simulate(action) → predicted_result,让Evaluator可以在执行前后各调一次。

▪ 趋势三:模型吃掉中间层

如果模型能原生处理文件、浏览网页、调用工具,整条进化线会被压缩:

现在的栈: Function Call → MCP → Skill → Harness → 产品 压缩后的栈:模型原生工具 → Harness → 产品

MCP和Skill层会从"必需品"变成"企业加强包"。个人开发者和中小团队可能不再需要MCP——模型直接能操作。但企业级场景(权限控制、审计日志、合规要求)仍然需要。

这恰恰验证了"分层解耦"原则的价值。 松耦合的中间层,模型吃掉哪层就拔掉哪层;紧耦合的栈,模型每升级一次就重构一次。

下一步:Agent Runtime → Agent OS

所有进展都在解决"Agent怎么靠谱干活"。但下一个方向已经开始浮现。

▪ OpenClaw:Agent Runtime

类似JVM之于Java,OpenClaw之于Agent。管理Agent的生命周期、工具连接、会话状态、技能加载、跨渠道消息。

▪ ColaOS:Agent OS

2026年4月,ColaOS提出了更激进的概念——Agent OS,有灵魂的操作系统。

老操作系统操作Byte,新操作系统操作Token。大模型是CPU,Agent是内核。

它和Manus、OpenClaw的区别:

  • Manus能干的员工——你交代任务,她做完等下一个
  • OpenClaw工具箱——你得自己组装才能用
  • Hermes 进化型教练——它不只帮你干活,还会自己训练自己,越用越强
  • ColaOS她来适应你——开箱即用,记忆原生,主动做事

▪ 大厂也在走这条路

Anthropic的Claude Computer Use让AI直接看屏幕、操作电脑。OpenAI的GPT-5.4把Computer Use变成了模型原生能力。

Google的Project Astra探索"通用AI助手"。2026年1月Apple与Google达成10亿美元合作,Gemini成为Siri和Apple Intelligence的基础。

Agent OS可能会从桌面端走向移动端,成为每个人的默认交互方式。

展望:三条可能的路线

路线

代表

核心理念

适合谁

Agent Runtime

OpenClaw

可编程的Agent运行环境,开发者自由组装

开发者/技术团队

Agent自进化

Hermes

自动优化循环参数,越用越强

追求效率的团队

Agent OS

ColaOS

开箱即用的智能操作系统,人只管说

普通用户/创作者

平台内嵌

Apple Intelligence/Google Astra

Agent能力内嵌到手机和桌面系统

所有人

这三条路线不是互斥的——底层都是同一个ReAct循环(思考→动手→看结果→再思考),只是体验层做了不同的取舍。 Agent Runtime把循环暴露给开发者,Agent OS把循环封装成产品,平台内嵌把循环藏进操作系统。

角色速查

如果你是...

重点关注...

行动建议

架构师

分层解耦 + 误差预算 + 模拟器接口 + ReAct循环设计

让中间层可插拔,预留世界模型接口

研发

Harness实践 + ReAct原理 + 多模态底层原理

学螺旋方向不学具体框架

决策者

Manus灵魂拷问 + 三条路线对比 + 世界模型趋势

模型升级是红利→正确赛道

创业者

Coze爆发 + Agent OS三路线 + 模型吃中间层

killer app可能是Agent平台

怎么搭一个不落伍的架构

基于这条进化线,一个前瞻性的Agent架构应该遵循几个原则:

1. 分层解耦。 能力层、通信层、编排层、体验层各自独立。模型升级只影响能力层。中间层设计成可插拔——模型能吃掉哪层,就拔掉哪层。

2. 评估体系独立于执行体系。 不要让执行者评估自己。保留人类介入的接口。同时预留模拟器接口——当世界模型成熟,评估从事后移到事前。

3. Harness是动态系统。 模型每升级一次,检查哪些组件不再必要。定期修剪比堆砌重要。

4. 误差预算思维。 不追求零误差,设定可接受范围,设计反馈回路控制在预算内。

5. 知识在仓库里不在人脑里。 Agent看不到的东西等于不存在。

6. 优先选择"boring"技术。 成熟、稳定的技术更容易被模型驾驭。

7. 为Agent OS时代预留接口。 确保你的架构可以向上演化为"人只管说"的体验。

8. 围绕ReAct循环设计。 每个组件都应该能回答"我在补这个循环的哪个环节"。如果回答不了,可能是多余组件。

最后

"学不过来怎么办?"

不用每个都学。这条进化线背后的逻辑是:能力不够用外部补→外部复杂了用框架沉淀→框架不可靠了用Harness保障→Harness成熟了向上做Agent OS。 这个"能力→沉淀→可靠性→体验"的螺旋上升才是本质。

而底层驱动这一切的,就是一个简单的ReAct循环:思考→动手→看结果→再思考。 每个阶段都在让这个循环更完整、更可靠、更自动化。

搭架构时,对准螺旋的方向,设计好你的ReAct循环,其他的都会跟上。

💡 一句话带走:AI Agent的每一次进化,都是在把人的判断从循环内移到循环外。你的架构应该让这件事成为红利,而不是威胁。

⚠️ 踩坑提醒:别被GitHub Star数忽悠了。Agent项目的活跃贡献者数量比Star更有参考价值。

❓ 灵魂拷问:你现在在做的Agent项目,如果GPT-6明天发布、能力翻倍,你是更高兴还是觉得之前白做了?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 的数字化之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档