这篇文章的起因是我在做一个Agent项目,把2022年到现在AI工程领域的演进翻了一遍。
翻完发现两个有意思的视角:
第一,所有爆火的Agent产品——从Agentic RAG到OpenClaw到Hermes——背后都在用同一个底层模式。 理解了这个模式,你就理解了整条进化线。
第二,如果把每个阶段放在一起看,这不只是一条技术迭代线,更是一份"怎么搭一个不落伍的Agent架构"的路线图。
一条隐藏的主线:ReAct
2022年,Google Research发了一篇论文《ReAct: Synergizing Reasoning and Acting in Language Models》(姚顺雨是第一作者)。核心思想极其简单:

思考 → 动手 → 看结果 → 再思考 → 解决问题。
听起来像常识?但就是这套"常识",成了后面所有Agent产品的底层工作方式。
Agentic RAG:不是搜一次就完,而是搜了看结果→不够→换个关键词再搜→够了→综合回答。ReAct。
OpenClaw:模型收到任务→规划步骤→调工具执行→看输出→判断是否完成→继续或调整。ReAct。
Hermes Agent:DSPy + GEPA自动优化提示→跑一遍看效果→不行→进化下一轮→直到帕累托最优。ReAct。
AutoGPT为什么失败了?因为它也在用ReAct——但缺了"看结果"这一步的验证机制,导致"再思考"变成了空转。
Harness Engineering本质是什么?给ReAct循环加了两个东西:一个独立的Evaluator(帮你看结果),一个终止条件(告诉你什么时候该停)。
AI Coding工具(Cursor/Claude Code/Trae)为什么最先成熟?因为IDE天然提供了完整的ReAct闭环——linter/compiler是Evaluator,测试结果是反馈,代码补全是Generator。
理解了ReAct是底层模式,整条进化线就变得清晰了:每个阶段都在补ReAct循环的某个短板。
好,带着这个视角,我们按时间线走一遍。
起点:模型能力跃迁(2022)
2022年底ChatGPT上线。模型越来越强——GPT-3.5→GPT-4→Claude,每次升级都让人觉得"这次真的可以了"。
但天花板很快出现:模型编造事实、知识有截止日期、不了解私有数据。
ReAct视角: 模型能"思考",但不能"动手",也没有"结果"可看。循环断在第一步。
RAG(2023)——用外部系统补模型短板
检索增强生成。先从知识库检索相关内容,再塞进上下文让模型基于事实回答。
RAG解决的是"模型不知道的事"。2023年被很多人称为"RAG元年"。
它揭示了AI工程的一个核心模式:模型能力不够时,用外部系统补。 这个模式贯穿了后面所有的演进。
开发框架:从LangChain到Dify、Coze(2023-2024)
2023年LangChain横空出世,把RAG、Prompt模板、记忆管理、工具调用封装成组件。2024年Java生态跟进——Spring AI和LangChain4j。
核心价值:把"每个项目都要重写一遍"的解决方案沉淀成可复用组件。
同期Dify以开源姿态填补了LangChain在国内的空白。Coze(扣子)走了另一条路——Bot商店+可视化工作流+插件市场,把Agent开发的门槛降到了"拖拽即用"。Coze的爆发说明了一件事:Agent时代的killer app,可能不是某个杀手级产品,而是一个让人人都能搭Agent的平台。
LangChain、Dify、Coze,三条路线至今都在并行——没有人证明哪个是正确答案。
AutoGPT(2023)——自主Agent第一次尝试
让模型自己规划步骤、自己调工具、自己迭代。Demo很酷,很快沉寂。
核心问题:缺乏停止条件和验证机制。
但AutoGPT证明了一件事:Agent的瓶颈不在模型智力,在外部控制系统。
Function Call(2023)——标准化的起点
OpenAI推出Function Calling,模型从"能说"变"能做"。但函数多了就迷路,能力边界也死。
Manus(2025)——产品级Agent标杆
2025年的现象级产品。通用型Agent,能自主完成电脑操作。2025年底Meta以超过20亿美元收购,从产品上线到收购仅270天。
Manus创始团队有一段被广泛引用的话:
"如果更强模型出来,你是更高兴还是觉得之前做的工作白费了?如果是高兴,那么我们认为是在正确的赛道上。"
好的Agent架构应该让模型升级成为红利,而不是让之前的工作变废纸。
MCP与A2A(2024-2026)——从统一工具到Agent协作
Anthropic推出MCP统一工具接口。2025年,Google推出A2A(Agent-to-Agent)协议——让不同框架的Agent能互相发现、委托任务、协作完成。A2A目前由Linux基金会管理,已有150+合作组织。
这意味着什么?Agent不再只是"单个Agent+多个工具",而是"多个Agent互相协作"。 ReAct循环从一个Agent内部,扩展到了Agent之间——Agent A思考后把任务委托给Agent B,看Agent B的结果,再决定下一步。A2A的终极形态可能是出现Agent社区 ——Agent之间自主交流、交换知识、甚至形成社会结构。
Skill系统(2025)——封装可复用能力
OpenClaw引入Skill:工具+执行流程+记忆模板。Function Call从"选择"进化到"创造"。
AI Coding工具链:从Claude Code到Cursor、Trae(2025-2026)
在Harness成为主流之前,AI辅助编程已经率先完成了进化。
Claude Code把整个代码库当作上下文,接受任务后自主规划、执行、验证。Cursor是第一个AI原生IDE。Trae是字节跳动对Cursor的回应,内置中文界面和国内生态适配。
这三种工具的本质,是把Harness理念内嵌到了为Agent量身定做的工作环境里。编程是Agent能闭环验证的任务,所以它最先跑通了可靠生产的路径。
Harness Engineering(2025-2026)——可靠性保障
这是当前最关键的进展。前面所有阶段都在解决"能力"问题,Harness解决的是"可靠性"问题。
▪ Anthropic的实践
Planner→Generator→Evaluator,GAN式三Agent架构。单Agent 9废品,加Harness 200可用产品。
▪ OpenAI的实践
3个工程师,5个月,用Codex写出100万行代码,0行手写。
几个颠覆认知的实践:
▪ 核心转变:in the loop → on the loop
传统方式是人每步都判断(in the loop)。Harness把人移到循环外(on the loop)——设计环境、制定规则、监控系统,Agent自主执行。
Hermes(2026)——自我进化

Hermes用DSPy + GEPA(遗传-帕累托提示进化)自动优化技能和提示。它把ReAct循环从"执行单个任务"提升到了"优化循环本身"——每一轮进化都是一次"跑任务→看效果→改参数→再跑"的ReAct,只是优化对象从任务结果变成了循环参数。
Context Engineering与AgentOps
Prompt Engineering的继任者——关注"给模型什么信息、以什么格式、在什么时候给"。Agent的生产运维——版本管理、成本追踪、A/B测试。
完整进化线
LLM能力跃迁(2022) 模型越来越强,但不能行动 ↓ RAG(2023) 模型不够?用外部知识补 ↓ 开发框架(2023-2024) LangChain / Dify / Coze 沉淀解决方案 ↓ AutoGPT(2023) 自主Agent第一次尝试,失败 ↓ Function Call(2023) 模型从"能说"变"能做" ↓ Manus(2025) 产品级Agent标杆,Meta $20亿收购 ↓ MCP、A2A(2024-2025) 统一工具接口、Agent之间能对话协作 ↓ AI Coding(2025-2026) Claude Code / Cursor / Trae ↓ Skill(2025) 封装可复用能力 ↓ Harness(2025-2026) 可靠性保障,in the loop → on the loop ↓ Hermes(2026) 自我进化
注意这条线的隐含模式: 每个阶段都在补ReAct循环的某个短板——动手能力、结果验证、迭代优化、Agent间协作。如果你在搭架构,先想清楚你的ReAct循环哪个环节最弱。
还没解决的两个核心难题
难题一:谁来评估评估者?
Harness把评估交给独立Evaluator Agent。但Evaluator也是LLM——同样有幻觉、有偏见。Anthropic自己承认"Claude is a poor QA agent"。"元评估"问题目前只有人能解决。
难题二:外循环脚本的误差累积
Harness让模型写脚本执行任务。但新脚本没经过测试,边界情况的误差会累积。不可能完全消除误差,但可以通过反馈回路把误差控制在预算内。
面向未来:三个正在改变游戏规则的趋势
▪ 趋势一:多模态原生——模型从"读文字"到"看世界"
2026年3月,OpenAI发布GPT-5.4——第一个具备原生Computer Use能力的前沿模型,支持1M token上下文。不需要截图转文本的中转层,模型直接看屏幕、操作界面。
Google的Gemini 2.5 Pro、Meta的Llama 4 Maverick都已支持原生多模态。这意味着什么?
对架构师的意义: 你现在搭的多模态适配层,应该设计成可插拔的插件。因为6-12个月后,模型可能原生吃掉这些功能。松耦合的适配层,拔掉就行;紧耦合的,得重构整条管道。
▪ 趋势二:世界模型——从"试了才知道"到"想了再试"
当前Harness的隐含前提:Agent先干,Evaluator后验。这是"后验式"可靠性——错了再改。
但世界模型(World Model)指向另一种可能:模型在行动前就能模拟结果。
Yann LeCun离开Meta创立AMI Labs,融资5亿欧元,估值30亿美元——一个还没发布产品的公司拿到这个估值,说明资本对世界模型方向的信心。LeCun的核心论点:LLM通过统计文本模式学习,永远无法理解物理现实。世界模型通过学习物理表征,才能实现真正的推理和规划。
Google DeepMind发布了Genie 3——第一个能实时生成交互式3D环境的世界模型,24fps。Fei-Fei Li的World Labs推出了Marble,让世界模型生成商业化可用。NVIDIA的Cosmos平台已有200万次下载,被机器人和自动驾驶团队用来生成物理感知的合成训练数据。
如果Agent能在"脑子里"跑一遍操作、预判结果,很多错误根本不会发生:
这直接冲击Harness的Evaluator角色。 评估可能从"事后检查"变成"事前模拟+事后验证"的双保险。误差累积问题的根本解法可能不是反馈回路,而是预测性规划。
对架构师的意义: 在编排层预留"模拟器接口"——现在可以没有实现,但架构上应该有这个位置。当世界模型成熟,你的Agent可以从"边做边验"跳到"先想后做"。接口设计很简单:simulate(action) → predicted_result,让Evaluator可以在执行前后各调一次。
▪ 趋势三:模型吃掉中间层
如果模型能原生处理文件、浏览网页、调用工具,整条进化线会被压缩:
现在的栈: Function Call → MCP → Skill → Harness → 产品 压缩后的栈:模型原生工具 → Harness → 产品
MCP和Skill层会从"必需品"变成"企业加强包"。个人开发者和中小团队可能不再需要MCP——模型直接能操作。但企业级场景(权限控制、审计日志、合规要求)仍然需要。
这恰恰验证了"分层解耦"原则的价值。 松耦合的中间层,模型吃掉哪层就拔掉哪层;紧耦合的栈,模型每升级一次就重构一次。
下一步:Agent Runtime → Agent OS
所有进展都在解决"Agent怎么靠谱干活"。但下一个方向已经开始浮现。
▪ OpenClaw:Agent Runtime
类似JVM之于Java,OpenClaw之于Agent。管理Agent的生命周期、工具连接、会话状态、技能加载、跨渠道消息。
▪ ColaOS:Agent OS
2026年4月,ColaOS提出了更激进的概念——Agent OS,有灵魂的操作系统。
老操作系统操作Byte,新操作系统操作Token。大模型是CPU,Agent是内核。
它和Manus、OpenClaw的区别:
▪ 大厂也在走这条路
Anthropic的Claude Computer Use让AI直接看屏幕、操作电脑。OpenAI的GPT-5.4把Computer Use变成了模型原生能力。

Google的Project Astra探索"通用AI助手"。2026年1月Apple与Google达成10亿美元合作,Gemini成为Siri和Apple Intelligence的基础。
Agent OS可能会从桌面端走向移动端,成为每个人的默认交互方式。
展望:三条可能的路线
路线 | 代表 | 核心理念 | 适合谁 |
|---|---|---|---|
Agent Runtime | OpenClaw | 可编程的Agent运行环境,开发者自由组装 | 开发者/技术团队 |
Agent自进化 | Hermes | 自动优化循环参数,越用越强 | 追求效率的团队 |
Agent OS | ColaOS | 开箱即用的智能操作系统,人只管说 | 普通用户/创作者 |
平台内嵌 | Apple Intelligence/Google Astra | Agent能力内嵌到手机和桌面系统 | 所有人 |
这三条路线不是互斥的——底层都是同一个ReAct循环(思考→动手→看结果→再思考),只是体验层做了不同的取舍。 Agent Runtime把循环暴露给开发者,Agent OS把循环封装成产品,平台内嵌把循环藏进操作系统。
角色速查
如果你是... | 重点关注... | 行动建议 |
|---|---|---|
架构师 | 分层解耦 + 误差预算 + 模拟器接口 + ReAct循环设计 | 让中间层可插拔,预留世界模型接口 |
研发 | Harness实践 + ReAct原理 + 多模态底层原理 | 学螺旋方向不学具体框架 |
决策者 | Manus灵魂拷问 + 三条路线对比 + 世界模型趋势 | 模型升级是红利→正确赛道 |
创业者 | Coze爆发 + Agent OS三路线 + 模型吃中间层 | killer app可能是Agent平台 |
怎么搭一个不落伍的架构
基于这条进化线,一个前瞻性的Agent架构应该遵循几个原则:
1. 分层解耦。 能力层、通信层、编排层、体验层各自独立。模型升级只影响能力层。中间层设计成可插拔——模型能吃掉哪层,就拔掉哪层。
2. 评估体系独立于执行体系。 不要让执行者评估自己。保留人类介入的接口。同时预留模拟器接口——当世界模型成熟,评估从事后移到事前。
3. Harness是动态系统。 模型每升级一次,检查哪些组件不再必要。定期修剪比堆砌重要。
4. 误差预算思维。 不追求零误差,设定可接受范围,设计反馈回路控制在预算内。
5. 知识在仓库里不在人脑里。 Agent看不到的东西等于不存在。
6. 优先选择"boring"技术。 成熟、稳定的技术更容易被模型驾驭。
7. 为Agent OS时代预留接口。 确保你的架构可以向上演化为"人只管说"的体验。
8. 围绕ReAct循环设计。 每个组件都应该能回答"我在补这个循环的哪个环节"。如果回答不了,可能是多余组件。
最后
"学不过来怎么办?"
不用每个都学。这条进化线背后的逻辑是:能力不够用外部补→外部复杂了用框架沉淀→框架不可靠了用Harness保障→Harness成熟了向上做Agent OS。 这个"能力→沉淀→可靠性→体验"的螺旋上升才是本质。
而底层驱动这一切的,就是一个简单的ReAct循环:思考→动手→看结果→再思考。 每个阶段都在让这个循环更完整、更可靠、更自动化。

搭架构时,对准螺旋的方向,设计好你的ReAct循环,其他的都会跟上。
💡 一句话带走:AI Agent的每一次进化,都是在把人的判断从循环内移到循环外。你的架构应该让这件事成为红利,而不是威胁。
⚠️ 踩坑提醒:别被GitHub Star数忽悠了。Agent项目的活跃贡献者数量比Star更有参考价值。
❓ 灵魂拷问:你现在在做的Agent项目,如果GPT-6明天发布、能力翻倍,你是更高兴还是觉得之前白做了?