
AI 工程四年间经历了三次进化——从学会「说话」,到管理「认知环境」,再到构建「防错系统」——每一次进化不是推翻上一次,而是补上它缺失的那一块。
假设一个场景:你手里有一份 200 页的上市公司财报,你想让 AI 帮你找出里面的风险信号。
这件事在 2022 年、2024 年、2026 年的做法完全不同。三种做法背后,藏着整个 AI 工程领域的演化脉络。
年份 | 怎么做 | 卡在哪里 |
|---|---|---|
2022 | 把财报切成小段,一段段复制粘贴进对话框,AI 忘记上一段再重新喂一遍 | 塞不进去——AI 一次只能看 2048 个 token,连一份完整财报都装不下 |
2024 | 用检索增强生成把财报存进向量库,让 AI 先检索相关段落再分析,搭一条多步骤流水线自动跑完 | 塞进去了但信息一团乱——检索回来的段落东一块西一块,AI 经常漏掉关键信息,或者把不相关的内容硬扯在一起 |
2026 | 一句话触发,系统自动并行检索多个数据源,去重合并后分发给多个分工明确的 AI 子代理,各自在隔离的沙盒里验证结论,最后汇总成一份报告 | 能跑了但需要防错系统——代理会跑偏、会产生幻觉、会陷入死循环 |
这三列不是三种并行方案,而是一条递进的进化链。它们分别对应 AI 工程的三个维度:怎么说、看什么、怎么防错。
2022 年 5 月,东京大学的研究员小岛(Kojima)做了一件极其简单的事。
他在给 AI 的题目后面加了一句话:"Let's think step by step."
在此之前,AI 在 MultiArith 数学推理题上的准确率是 17.7%。加了这句话之后,准确率跳到了 78.7%。在 GSM8K 数学题上,从 10.4% 变成了 40.7%。还有一个叫 Coin Flip 的逻辑推理任务,从 12.8% 飙升到 91.4%。
中间只隔了一句话。
这件事揭示了一个当时很多人没意识到的真相:AI 的能力比你想象的大,但你不一定会用。 同样的模型,同一组题目,换一种问法,结果天差地别。
这就是提示词工程的核心:你不需要成为 AI 专家,你只需要学会把话说清楚。
在此之前,普通人跟 AI 打交道的方式是"写代码调用 API"。在此之后,"跟 AI 用人话聊天"变成了正经的工作方式。到了 2023 年,Anthropic 公开招聘"提示词工程师",年薪开到 17.5 万到 33.5 万美元——把话说清楚变成了一门职业。
但这个阶段很快就撞到了天花板。天花板不是技巧不够,是物理限制:你没法在一句话里塞进 200 页财报。 无论你多擅长组织语言,AI 的处理窗口就那么长。你说得再清楚,它看不到足够的信息也是白搭。
这就是第一次进化留给我们的问题:话会说清楚了,但信息装不下。于是第二次进化来了。
如果说提示词工程回答的是"怎么说",那上下文工程回答的就是——"给 AI 看什么"。
这不是凭空出现的概念。2020 年 5 月,Lewis 团队发表了一篇论文,提出了"检索增强生成"(Retrieval-Augmented Generation,RAG)的思路:不要让 AI 死记硬背所有信息,而是让它在需要的时候自己去翻参考资料。当时他们用这个方案,让 AI 在 Wikipedia 的 2100 万段文本里查找答案。
但这个想法真正爆发是在 2023 年。这一年发生了几件事:
首先,有人造出了让普通人也能搭这种"自动翻资料"系统的工具,最典型的是 LangChain 和 LlamaIndex。它们把检索、排序、调用 AI 这些环节做成积木,你不需要懂底层原理,拼起来就能用。
其次,专门存储和检索向量数据的数据库大量出现——Pinecone、Weaviate、Milvus、Chroma。这些工具让"先检索再回答"的模式从实验室走进了生产环境。
然后,AI 模型的上下文窗口开始了一场军备竞赛。2023 年 7 月,Claude 2 率先支持 10 万 token;11 月,Claude 2.1 再扩到 20 万,同月 GPT-4 Turbo 扩到 12.8 万。到了 2024 年,Gemini 1.5 Pro 直接飙到 100 万 token,同年 6 月又翻倍到 200 万。
窗口变大了,但新问题也随之出现。2023 年 7 月,一篇题为《Lost in the Middle》的预印本论文发现了一个令人头疼的现象:当你给 AI 喂大量信息时,它对开头和结尾的内容记得最清楚,对中间部分却系统性忽略。注意曲线像一个 U 形——信息越多,中间越容易丢。
这催生了更精细的做法。2024 年 11 月,Anthropic 发布了模型上下文协议(Model Context Protocol,MCP),本质上是一套标准——让 AI 能够像插不同接口卡一样接入不同的数据源。2025 年 9 月,Anthropic 在其官方指南中归纳了四种核心操作:写入(Write)——有策略地向上下文中添加信息;选择(Select)——从海量数据中筛选真正相关的内容;压缩(Compress)——精简上下文中的冗余、保留信息精华;隔离(Isolate)——将不同关注点分到独立上下文,避免混淆。
这是一套完整的信息管理流程。它的本质一句话就能说清:信息环境比指令更重要。
但这个阶段也有天花板。你已经把最好的信息喂给 AI 了,它还是会跑偏。它会编造不存在的 API,然后写一大堆调用那个假 API 的代码。它会在修复一个 bug 时突然开始重构路由层。它会陷在一个问题里,修 bug 引入新 bug,再修新 bug 引入更多 bug,永无止境。
上下文工程解决了"给 AI 看什么",但它没解决另一个问题:给了对的信息,AI 还是会做错事。
这就把问题推向了第三次进化。
2026 年 2 月 5 日,Mitchell Hashimoto(HashiCorp 创始人)在博客里为一个新概念下了定义:"Harness Engineering"。
这个词不好直译。它的核心意思是:在 AI 外面套一层防护系统,让它即使会犯错,也造不成真正的破坏。
为什么需要这层防护?因为 AI 能自主跑起来之后,暴露了一类全新的失败模式。举三个具体例子:
任务漂移:你让 AI 修一下登录页的样式,它修着修着突然觉得"这个路由层写得不够优雅",然后开始重构整个路由系统。它没恶意,它只是在任务的路上越走越偏。
幻觉级联:AI 为了让代码完整,编了一个不存在的 API 函数。然后它"相信"自己编出的这个函数真的存在,继续写了一大堆调用它的代码。一个幻觉催生出一整片错误。
无限递归:AI 部署代码后发现测试没通过,自动开始修复。修复引入新 bug,检测到新 bug 继续修……如此循环,直到你把 Token 额度烧完。
2023 年 AutoGPT 发布时,这几种典型的失败模式——任务漂移、错误累积、幻觉级联、窗口耗尽、成本爆炸、无限递归、安全失控——全部暴露出来。整个社区开始意识到:光让 AI 能跑还不够,你得防止它跑偏。
这个领域的建设速度极快。2026 年 2 月 11 日,OpenAI 发表了一篇 Harness Engineering 论文:3 个人的团队起步,5 个月时间,写了约 100 万行基础设施代码,提交了约 1500 个 PR。
紧接着的两周内,发生了两件关键的事,让 Harness 工程的价值第一次被量化。
第一件来自 LangChain 在 Terminal Bench 2.0 上的实验。他们在 89 个跨领域编程任务上测试同一个模型(gpt-5.2-codex),唯一改动的是 AI 代理外面的那层框架层。结果通过率从 52.8% 跳到了 66.5%,排名从第 30 名升到了第 5 名。加 13.7 个百分点,只靠换框架。
第二件来自斯坦福和清华的联合研究。他们发现同一个模型搭配不同的 Harness 系统,性能差距可以达到 6 倍。6 倍的差距来自同样的模型——这意味着模型的差异正在被外面那层系统的差异远远甩开。
Anthropic 在 2026 年 3 月提出了一个 Planner → Generator → Evaluator 三层架构——和 GAN(生成对抗网络)的设计哲学相通:不是让一个模型做所有事,而是用分工协作提高上限。一个负责规划,一个负责执行,一个负责检查。让 AI 自己监督自己。
Harness 工程的本质是在做一件事:从"帮 AI 做对"转向"防止 AI 做错"。 这是 AI 工程观念的一次根本翻转。
这三层进化不是互相替代的关系,而是嵌套的。
提示词工程打底——你需要把任务描述清楚,AI 才知道要做什么。上下文工程往上叠一层——你需要管理好喂进去的信息,AI 才有正确的判断依据。Harness 工程在最外面加一层——你需要一套防错机制,让 AI 在这个信息环境里不跑偏。
拿 2026 年的财报分析系统来拆解,这三层怎么协同工作就清楚了:提示词让 AI 理解"你要在财报里找风险"这个目标;上下文工程决定 AI 能看到财报的哪些部分、怎么组织这些信息;Harness 工程确保每个子代理只做自己分内的事、所有的结论都要在沙盒里验证过才能放进报告。
还有一条容易被忽略的经济暗线。
2022 年初,GPT-3 的 API 调用价格还不便宜,上下文窗口只有 2048 个 token。到了 2026 年,API 价格下降了超过两个数量级,上下文窗口扩到了 200 万 token——翻了近 1000 倍。
这意味着什么?2022 年你费尽周章给 AI 分段喂文件,是因为塞不进去。2026 年你不需要分段了,但你又面临了新问题:信息管不好、AI 容易跑偏。每一次进化都踩在前一次进化降低了门槛之后才变得可行。没有便宜的 API 和巨大的窗口,你根本不需要一套复杂的信息管理和防错系统,因为你连让 AI 跑起来的成本都付不起。
把这条线串起来,整个 AI 工程四年的趋势就清楚了:模型正在变成通用商品,差异化的重心从"选哪个模型"转移到了"搭什么系统"。 真正拉开产品差距的,不是模型本身,而是模型外面的那层工程体系。
序篇到这里,已经把三次进化的脉络讲清楚了。接下来的三篇文章,各自深入一个维度。
《提示词工程简史》——读完你会理解,为什么同一句话换个说法,AI 的表现天差地别。从 2020 年的 GPT-3 到 2024 年的 o1 推理模型,四年间"把话说清楚"这件事怎么从一招鲜变成了一门学问。
《上下文工程简史》——读完你会看清,那些看起来很"智能"的产品,背后到底喂了什么信息给 AI。从 RAG 到 MCP 到四操作框架,信息管理这件事远比想象中复杂。
《Harness 工程简史》——读完你会发现,真正拉开 AI 产品差距的不是模型本身,而是它外面的那层防护系统。从 AutoGPT 的典型失败模式到七层防护模型,这个领域正在重新定义"AI 工程"四个字。
你不需要跳读,因为这三层进化本来就是一层一层叠起来的。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。