AI 工程的三次进化

原创

卢旺

发布于 2026-06-20 13:55:25

1050

AI 工程四年间经历了三次进化——从学会「说话」，到管理「认知环境」，再到构建「防错系统」——每一次进化不是推翻上一次，而是补上它缺失的那一块。

一、同一个任务，三种做法

假设一个场景：你手里有一份 200 页的上市公司财报，你想让 AI 帮你找出里面的风险信号。

这件事在 2022 年、2024 年、2026 年的做法完全不同。三种做法背后，藏着整个 AI 工程领域的演化脉络。

年份	怎么做	卡在哪里
2022	把财报切成小段，一段段复制粘贴进对话框，AI 忘记上一段再重新喂一遍	塞不进去——AI 一次只能看 2048 个 token，连一份完整财报都装不下
2024	用检索增强生成把财报存进向量库，让 AI 先检索相关段落再分析，搭一条多步骤流水线自动跑完	塞进去了但信息一团乱——检索回来的段落东一块西一块，AI 经常漏掉关键信息，或者把不相关的内容硬扯在一起
2026	一句话触发，系统自动并行检索多个数据源，去重合并后分发给多个分工明确的 AI 子代理，各自在隔离的沙盒里验证结论，最后汇总成一份报告	能跑了但需要防错系统——代理会跑偏、会产生幻觉、会陷入死循环

这三列不是三种并行方案，而是一条递进的进化链。它们分别对应 AI 工程的三个维度：怎么说、看什么、怎么防错。

二、第一次进化：把话说清楚（提示词工程）

2022 年 5 月，东京大学的研究员小岛（Kojima）做了一件极其简单的事。

他在给 AI 的题目后面加了一句话："Let's think step by step."

在此之前，AI 在 MultiArith 数学推理题上的准确率是 17.7%。加了这句话之后，准确率跳到了 78.7%。在 GSM8K 数学题上，从 10.4% 变成了 40.7%。还有一个叫 Coin Flip 的逻辑推理任务，从 12.8% 飙升到 91.4%。

中间只隔了一句话。

这件事揭示了一个当时很多人没意识到的真相：AI 的能力比你想象的大，但你不一定会用。 同样的模型，同一组题目，换一种问法，结果天差地别。

这就是提示词工程的核心：你不需要成为 AI 专家，你只需要学会把话说清楚。

在此之前，普通人跟 AI 打交道的方式是"写代码调用 API"。在此之后，"跟 AI 用人话聊天"变成了正经的工作方式。到了 2023 年，Anthropic 公开招聘"提示词工程师"，年薪开到 17.5 万到 33.5 万美元——把话说清楚变成了一门职业。

但这个阶段很快就撞到了天花板。天花板不是技巧不够，是物理限制：你没法在一句话里塞进 200 页财报。 无论你多擅长组织语言，AI 的处理窗口就那么长。你说得再清楚，它看不到足够的信息也是白搭。

这就是第一次进化留给我们的问题：话会说清楚了，但信息装不下。于是第二次进化来了。

三、第二次进化：管好 AI 看到的东西（上下文工程）

如果说提示词工程回答的是"怎么说"，那上下文工程回答的就是——"给 AI 看什么"。

这不是凭空出现的概念。2020 年 5 月，Lewis 团队发表了一篇论文，提出了"检索增强生成"（Retrieval-Augmented Generation，RAG）的思路：不要让 AI 死记硬背所有信息，而是让它在需要的时候自己去翻参考资料。当时他们用这个方案，让 AI 在 Wikipedia 的 2100 万段文本里查找答案。

但这个想法真正爆发是在 2023 年。这一年发生了几件事：

首先，有人造出了让普通人也能搭这种"自动翻资料"系统的工具，最典型的是 LangChain 和 LlamaIndex。它们把检索、排序、调用 AI 这些环节做成积木，你不需要懂底层原理，拼起来就能用。

其次，专门存储和检索向量数据的数据库大量出现——Pinecone、Weaviate、Milvus、Chroma。这些工具让"先检索再回答"的模式从实验室走进了生产环境。

然后，AI 模型的上下文窗口开始了一场军备竞赛。2023 年 7 月，Claude 2 率先支持 10 万 token；11 月，Claude 2.1 再扩到 20 万，同月 GPT-4 Turbo 扩到 12.8 万。到了 2024 年，Gemini 1.5 Pro 直接飙到 100 万 token，同年 6 月又翻倍到 200 万。

窗口变大了，但新问题也随之出现。2023 年 7 月，一篇题为《Lost in the Middle》的预印本论文发现了一个令人头疼的现象：当你给 AI 喂大量信息时，它对开头和结尾的内容记得最清楚，对中间部分却系统性忽略。注意曲线像一个 U 形——信息越多，中间越容易丢。

这催生了更精细的做法。2024 年 11 月，Anthropic 发布了模型上下文协议（Model Context Protocol，MCP），本质上是一套标准——让 AI 能够像插不同接口卡一样接入不同的数据源。2025 年 9 月，Anthropic 在其官方指南中归纳了四种核心操作：写入（Write）——有策略地向上下文中添加信息；选择（Select）——从海量数据中筛选真正相关的内容；压缩（Compress）——精简上下文中的冗余、保留信息精华；隔离（Isolate）——将不同关注点分到独立上下文，避免混淆。

这是一套完整的信息管理流程。它的本质一句话就能说清：信息环境比指令更重要。

但这个阶段也有天花板。你已经把最好的信息喂给 AI 了，它还是会跑偏。它会编造不存在的 API，然后写一大堆调用那个假 API 的代码。它会在修复一个 bug 时突然开始重构路由层。它会陷在一个问题里，修 bug 引入新 bug，再修新 bug 引入更多 bug，永无止境。

上下文工程解决了"给 AI 看什么"，但它没解决另一个问题：给了对的信息，AI 还是会做错事。

这就把问题推向了第三次进化。

四、第三次进化：让 AI 做不错事（Harness 工程）

2026 年 2 月 5 日，Mitchell Hashimoto（HashiCorp 创始人）在博客里为一个新概念下了定义："Harness Engineering"。

这个词不好直译。它的核心意思是：在 AI 外面套一层防护系统，让它即使会犯错，也造不成真正的破坏。

为什么需要这层防护？因为 AI 能自主跑起来之后，暴露了一类全新的失败模式。举三个具体例子：

任务漂移：你让 AI 修一下登录页的样式，它修着修着突然觉得"这个路由层写得不够优雅"，然后开始重构整个路由系统。它没恶意，它只是在任务的路上越走越偏。

幻觉级联：AI 为了让代码完整，编了一个不存在的 API 函数。然后它"相信"自己编出的这个函数真的存在，继续写了一大堆调用它的代码。一个幻觉催生出一整片错误。

无限递归：AI 部署代码后发现测试没通过，自动开始修复。修复引入新 bug，检测到新 bug 继续修……如此循环，直到你把 Token 额度烧完。

2023 年 AutoGPT 发布时，这几种典型的失败模式——任务漂移、错误累积、幻觉级联、窗口耗尽、成本爆炸、无限递归、安全失控——全部暴露出来。整个社区开始意识到：光让 AI 能跑还不够，你得防止它跑偏。

这个领域的建设速度极快。2026 年 2 月 11 日，OpenAI 发表了一篇 Harness Engineering 论文：3 个人的团队起步，5 个月时间，写了约 100 万行基础设施代码，提交了约 1500 个 PR。

紧接着的两周内，发生了两件关键的事，让 Harness 工程的价值第一次被量化。

第一件来自 LangChain 在 Terminal Bench 2.0 上的实验。他们在 89 个跨领域编程任务上测试同一个模型（gpt-5.2-codex），唯一改动的是 AI 代理外面的那层框架层。结果通过率从 52.8% 跳到了 66.5%，排名从第 30 名升到了第 5 名。加 13.7 个百分点，只靠换框架。

第二件来自斯坦福和清华的联合研究。他们发现同一个模型搭配不同的 Harness 系统，性能差距可以达到 6 倍。6 倍的差距来自同样的模型——这意味着模型的差异正在被外面那层系统的差异远远甩开。

Anthropic 在 2026 年 3 月提出了一个 Planner → Generator → Evaluator 三层架构——和 GAN（生成对抗网络）的设计哲学相通：不是让一个模型做所有事，而是用分工协作提高上限。一个负责规划，一个负责执行，一个负责检查。让 AI 自己监督自己。

Harness 工程的本质是在做一件事：从"帮 AI 做对"转向"防止 AI 做错"。 这是 AI 工程观念的一次根本翻转。

五、进化的底层逻辑

这三层进化不是互相替代的关系，而是嵌套的。

提示词工程打底——你需要把任务描述清楚，AI 才知道要做什么。上下文工程往上叠一层——你需要管理好喂进去的信息，AI 才有正确的判断依据。Harness 工程在最外面加一层——你需要一套防错机制，让 AI 在这个信息环境里不跑偏。

拿 2026 年的财报分析系统来拆解，这三层怎么协同工作就清楚了：提示词让 AI 理解"你要在财报里找风险"这个目标；上下文工程决定 AI 能看到财报的哪些部分、怎么组织这些信息；Harness 工程确保每个子代理只做自己分内的事、所有的结论都要在沙盒里验证过才能放进报告。

还有一条容易被忽略的经济暗线。

2022 年初，GPT-3 的 API 调用价格还不便宜，上下文窗口只有 2048 个 token。到了 2026 年，API 价格下降了超过两个数量级，上下文窗口扩到了 200 万 token——翻了近 1000 倍。

这意味着什么？2022 年你费尽周章给 AI 分段喂文件，是因为塞不进去。2026 年你不需要分段了，但你又面临了新问题：信息管不好、AI 容易跑偏。每一次进化都踩在前一次进化降低了门槛之后才变得可行。没有便宜的 API 和巨大的窗口，你根本不需要一套复杂的信息管理和防错系统，因为你连让 AI 跑起来的成本都付不起。

把这条线串起来，整个 AI 工程四年的趋势就清楚了：模型正在变成通用商品，差异化的重心从"选哪个模型"转移到了"搭什么系统"。 真正拉开产品差距的，不是模型本身，而是模型外面的那层工程体系。

六、三部曲导览

序篇到这里，已经把三次进化的脉络讲清楚了。接下来的三篇文章，各自深入一个维度。

《提示词工程简史》——读完你会理解，为什么同一句话换个说法，AI 的表现天差地别。从 2020 年的 GPT-3 到 2024 年的 o1 推理模型，四年间"把话说清楚"这件事怎么从一招鲜变成了一门学问。

《上下文工程简史》——读完你会看清，那些看起来很"智能"的产品，背后到底喂了什么信息给 AI。从 RAG 到 MCP 到四操作框架，信息管理这件事远比想象中复杂。

《Harness 工程简史》——读完你会发现，真正拉开 AI 产品差距的不是模型本身，而是它外面的那层防护系统。从 AutoGPT 的典型失败模式到七层防护模型，这个领域正在重新定义"AI 工程"四个字。

你不需要跳读，因为这三层进化本来就是一层一层叠起来的。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

AI Coding 全栈开发

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

AI Coding 全栈开发

登录后参与评论

0 条评论

热度