意图工程。Harness：让Agent不再犯重复错，但这还不够

mixlab

发布于 2026-06-08 10:53:03

文章被收录于专栏：MixLab科技+设计实验室MixLab科技+设计实验室

这篇文章想讲清楚一件事：模型、工具、协议三层商品化之后，下一阶段的竞争在人机接口处。

这一层我想给它起个名字，叫意图工程（Intent Engineering）。

驾驭工程关注"修机"（让 Agent 不犯重复错），意图工程关注"修人机接口"（让人脑模糊意图无损送达硅基系统）。

一、进化树（3+1 叠加结构）

AI 应用开发的范式正在迁移。前三段是业界共识，第四段是趋势

提示工程 Prompt Engineering   ← 2022-2023
   │  调词；让模型"听懂话"
   ↓
上下文工程 Context Engineering   ← 2025-06 (Karpathy 推文)
   │  布信息；让模型"够得着用得上"
   ↓
驾驭工程 Harness Engineering   ← 2026-02-05 (Hashimoto 命名)
   │  调环境；让 Agent 不犯重复错
   ↓    2026-02-11 (OpenAI 百万行代码实验跟进)

意图工程 Intent Engineering
   │  翻译人机接口；让"我想要"无损送达
   │  与驾驭工程的边界：驾驭工程修"机"，
   │  意图工程修"人机接口"
   ↓

提示工程（2022-2023）：你在调词。目标是让模型"听懂话"。Karpathy 在 2025 年终总结中回顾，这是早期大语言模型（LLM）应用的标配。
上下文工程（2025-）：你在布信息。目标是让模型"够得着用得上"。Karpathy 发推文引爆，Shopify CEO 公开背书。
驾驭工程（2026-02-）：你在调环境。工具、记忆、计划、反思、验证，被你编排成"Agent 不再犯重复错"的系统。 Hashimoto命名，OpenAI百万行代码实验验证。
意图工程（2026+）：你在翻译。把人类脑子里那个模糊、矛盾、带情绪、带上下文的"我想要"，无损地送进硅基系统。

四个阶段，关注点逐步迁移：

Prompt（提示工程，2022-2023）：关注单次输入的措辞。在模型接口修词。
Context（上下文工程，2025-）：关注信息集合的密度。在模型输入布信息。
Harness（驾驭工程，2026-02-）：关注 Agent（智能体）运行环境的可靠性。在模型外围修环境。
Intent（意图工程，2026+）：关注人机接口处的意图对齐。在碳基 ↔ 硅基边界修翻译。

前三段在"硅基世界"内部打转。意图工程第一次把"碳基直觉"提到最优先级

和驾驭工程的关键差异：

驾驭工程让机器不犯错，

意图工程让机器听懂人。

二、模型、工具、协议的商品化

模型层：GPT-4 到 GPT-4o 到 GPT-5，能力提升的曲线逐步平缓。基准分数的天花板正在被所有头部玩家共同触及。Claude、Gemini、DeepSeek、Qwen、Llama，闭源开源、欧美中国，能力差距在半年内被缩小差距。

工具层：LangChain 教会了大家"链式调用"，然后被大家抛弃。ReAct、AutoGPT、Function Calling（函数调用）、Tools API，标准化得太快了。今天写一套，明天就有平替。

协议层（2024-11 → 2025-04）：

MCP（模型上下文协议，Anthropic 2024-11 开源）：智能体 ↔ 工具（client-server）。模型上下文MCP
A2A（智能体间协议，Google在 Cloud Next 25 推出，50+ 合作伙伴）：智能体 ↔ 智能体（peer-to-peer）。
两者是分层互补：MCP 修工具调用，A2A 修智能体协作

一旦有协议，就意味着接口被抽象，集成门槛降到极低。

尘埃落定。

模型是水电煤，工具是货架，协议是 HTTP。

这三层已经没有新机会了。

剩下的壁垒在哪里？

三、上下文是管道，不是产品。但驾驭工程也只是脚手架

很多人会说：上下文工程才是壁垒。

错了一半。

Context 是管道，Harness 是脚手架。但它们都不是产品。

你把公司的所有文档、聊天客诉历史、会议记录、客户工单，整理成一个检索增强生成（RAG）的上下文包 —— 这事，任何一个 SaaS 都能做，甚至普通用户vibe几下也可以做。

Notion AI 能做，Slack AI 能做，Microsoft Copilot 能做。

差别是接入成本、计费方式、UI 风格。但这些差异，会被时间和产品迭代磨平。

你搭一个 harness，让 Agent 不再犯重复错误：OpenAI 在今年2月发布的百万行代码实验报告已经把最佳实践开源。也就意味着，任何一个工程团队都能复刻。

真正决定用户体验的，是管道+脚手架两端的接口：

左端是人的意图——模糊、不完整、带情绪、随时变化。
右端是模型与工具——精确、结构化、遵循协议。
中间这个交互层，把人类的"想要"翻译成机器的"去做"，把机器的"做完"翻译成人类的"看到了"。

这个翻译层，恰恰是用户每天摸到、看到、感受到的东西。

它是产品，也是壁垒。

更是人机交互（HCI）的创新之处。

四、意图工程：信号、噪声、保真度

把意图传输当成一个通信问题看：

[人的意图]──信号──▶[交互层]──信号──▶ [模型与工具]
  (碳基)    ↑             ↑      (硅基)
           │             │
          失真 A        失真 B

失真 A：发生在碳基→交互层。人的"我想要一个不无聊的 demo"在脑子里是一团感受，到了键盘上变成了"写一个 Python 脚本生成柱状图"。

失真 B：发生在交互层→硅基。Prompt 进了大语言模型，被Token化、被系统提示覆盖、被上下文窗口挤压。一句"刚才那个"在 128k 上下文里可能被淹没 — 上下文腐烂

每一次失真，意图的保真度都在衰减。

意图工程的目标，就是让这条链路上的总失真率，逼近零。

这是一个工程问题：

左端的失真怎么降？靠更懂你的交互方式（多模态、所见即所得、自然对话、示范）。
右端的失真怎么降？靠更结构化的指令设计（中间表示、领域专用语言 DSL、规划、Reflection 反思）。
中间的失真怎么降？靠双向反馈回路（你看到结果后能精炼意图，机器能反问澄清）。

最高保真度的交互是什么样的？

界面消失。

你不再"使用"产品，你就在产品里。

像写作时用笔，像画家用笔刷，像 DJ 用唱机。

意图在指尖流出去，动作在指尖落下来，中间没有翻译损失。

这就是"最好的界面，是意图对齐"

认知科学家 Clark 和 Chalmers 1998 年提过"延伸心智"：人脑、笔记本、笔共同构成一个认知系统。

AI Agent 正在让"笔记本"变成"第二大脑"，延伸出去的心智，保真度反而成了新问题：还算不算"你的"？

意图从人到机器的信号失真：碳基直觉如何衰减

五、案例：意图保真度

下面四个案例是定性比较，不是量化 benchmark —— 业界目前没有衡量标尺。

🟢 高保真：Cursor

你不需要告诉它"用 Python 写一个 FastAPI 接口，调用 OpenAI，要流式输出"。

你只需要说"加个 chat 接口"，它看懂了整个项目的结构、依赖、命名习惯、测试约定。

意图工程视角：在 harness 治理之上，Cursor 在人机接口处已经做到了"你不需要告诉它怎么实现，只需要告诉它你想要什么" —— 这就是意图高保真的体现。

Karpathy 2025 年终总结里把 Cursor 称为"new layer of LLM apps"，核心是上下文工程 + 多调用编排 + 自主度滑块（autonomy slider）+ 用户反馈式人机协同（human-in-the-loop GUI）

🟡 中保真：v0 / Bolt.new

你描述一个产品想法，它生成 UI 草图。但你必须自己微调：颜色不对、布局不对、文案不对。

它猜到了你的形，没猜到你的意。

意图工程视角：人机接口处的反问/澄清机制弱：意图层的反馈回路不闭环。

🟠 低保真：Humane AI Pin / Rabbit R1

意图输入没有问题（语音、摄像头），但意图翻译烂掉了。用户说"帮我点杯咖啡"，它要么不会，要么点了错误的咖啡、错误的地址、错误的支付方式。

意图工程视角：这是人机接口的意图翻译层失败，这和驾驭工程无关（它不是 harness 治理问题），纯粹是"听不懂人话"。再酷的硬件也救不回来。

ps：Pin 的工业设计得过 IF 设计奖，但工业设计救不回意图工程的失败

🔴 零保真：通用 Chatbot

典型代表豆包

你问"我想做个产品"，它回答"哇好棒！你可以先做用户研究！"

它没有帮你做意图工程，它在帮你回避意图。

模型能力只是入场券，意图对齐才是壁垒。

驾驭工程是可量化的（来自 Life-Harness 论文，2026）：126 套模型-环境组合中 116 套因 harness 优化而提升，平均 +88.5%（18 个 backbone）。

意图工程暂时还没有测量方法和相关研究。

最近，还有个趋势 Agentic UI（智能体界面）：

一次性界面（Disposable UI）

生成式界面（Generative UI）（如Google搜索的生成式界面）

是意图工程的早期形态在产品上的表现。

从"界面长什么样"，到"界面背后的意图怎么对齐"。

六、意图工程的四象限

如果把意图工程当成一门学科，它至少有四个维度：

               高结构化
                  │
      ② 工具编排    │   ③ 协议设计
     (Function    │   (MCP / A2A /
      Calling)    │    Intent DSL)
                  │
  低自由度 ─────────┼────────── 高自由度
                  │
       ① 交互形态   │   ④ 反馈回路
      (多模态/     │   (Reflection /
       示范)       │    主动澄清)
                  │
               低结构化

① 交互形态：鼠标键盘、语音手势、所见即所得、示范学习。
② 工具编排：函数调用（Function Calling）、工具使用（Tool Use）、智能体循环（Agent Loop）。
③ 协议设计：MCP（Anthropic 2024-11）+ A2A（Google 2025-04）。目前业界没有"Intent Protocol"或"Intent DSL" —— 我认为非常值得探索。
④ 反馈回路：让模型反问、让人类精炼、让循环收敛。

一个真正优秀的意图工程产品，必须把这四象限同时做对。

缺一个，都不“完美”

与驾驭工程的边界：四象限中的"② 工具编排"和"③ 协议设计"和驾驭工程有关；"① 交互形态"和"④ 反馈回路"主要在意图工程范畴。

重叠区是"用 harness 治理 agent 行为 + 用交互层收集意图反馈"的协同。

七、启发

给工程师

不要再沉迷于我会写 prompt。 Prompt 是 5 年前的特长，今天是基本功。你真正的杠杆是设计意图-动作的映射：

一个动作能不能拆？
一个意图能不能并行？
一个失败能不能被优雅地反悔？
一个成功能不能被记住、被迁移？

会写 prompt 的工程师有 2000 万（不止）。

会设计意图-动作映射的工程师，价值 100 倍。

给创始人

你在做 AI 应用？好。问问自己：

你的核心交互层-意图工程层是什么？它是发明还是模仿？
你的意图保真度比对手高 5% 吗？高在哪？
你的反馈回路能让用户更懂自己吗？还是只是更懂你？

如果答案都是"我们用 GPT-5.5 加 RAG 加 Agentic Loop" ——

那你做的是商品。商品没有壁垒。

商品会输给下一个用新模型重做一遍的团队。

给投资人

未来的 AI 应用公司估值，应该看两个并列指标：

驾驭工程密度（Harness Density）：单位用户行为里，有多少比例是产品主动用 harness 帮你"管住 Agent"了。Life-Harness 论文显示 126 套组合中 116 套因 harness 优化提升，平均 +88.5%。
意图工程密度（Intent Density）：单位用户行为里，有多少比例是产品主动帮你"对齐人机意图"了。

低密度的，就是套壳。

两个都高 = 下一个 Notion、下一个 Figma、下一个 Excel。

也许意图工程只是新瓶装旧酒？

如果你拆开看：

多模态交互早就在做这件事
反思机制（Reflection）/主动澄清（active clarification）已经写在 Anthropic 的系统设计里
Cursor 的"听懂"也不是 2026 才冒出来的能力

那"意图工程"到底新在哪？

新在系统性整合优秀思想和经验成果。把零散在多模态界面、交互设计、对话式设计里的实践，集中到"人机接口处意图对齐"这一层，作为单独学科来对待。

但学科和工程化产品之间，还有相当距离。

今天能宣称"Intent Engineering 已经工程化"的团队，几乎没有。

我们更应该把意图工程当成一个正在浮现的研究方向，而不是一个已经成型的解决方案。

作为视角：意图工程非常有用，让产品经理重新审视"我到底在做什么层"
作为命名：可以接受，但不必神化
作为产品宣称：还早。别信任何"我们实现了意图工程"的市场话术，除非他们有具体的人机接口保真度测试

八、终局：界面消失，意图显形

30 年前，PC 软件是命令式的。 20 年前，图形用户界面（GUI）让"点"代替了"打"。 10 年前，手机让"滑"代替了"点"。今天，AI 让"说"代替了"滑"。

每一次媒介进化，意图的输入带宽都在增加，操作的认知负担都在降低。人离"我想要"越来越近，离"怎么做"越来越远。

下一个十年，意图工程 + 驾驭工程的极致是什么？

驾驭工程解决"机"：让 Agent 永远在你电脑上跑着。

意图工程解决"人机接口"：

你不再需要告诉它你想要什么。它已经知道。它知道你今早没睡好，知道你今天 deadline 在三点，知道你去年被这个方案坑过，知道你老板喜欢看图表不喜欢看表格。

它在你开口之前，已经把答案准备好了。

不是读心。是长期、低损耗的意图建模，让机器的理解逼近你的表达。

那时候，界面就消失了。你不会说"我用 XX 产品"，你会说"我做了 XX 事"。意图直达动作，中间没有"使用"这一环。

这是人机协作的终极形态： 不是机器更聪明，是机器更懂你。

总结

══════════════════════════════════════
  完整人机协作系统（4 层架构）
═══════════════════════════════════════

[人的意图] ──意图工程──▶ [驾驭+上下文] ──▶ [模型+工具]
 模糊 · 完整          管道 · 脚手架     精确 · 商品
       ▲                  │
       │                  │
       └──── 反馈回路 ──────┘

══════════════════════════════════════
  业界 3 段共识 + 新第 4 段
═════════════════════════════════════

  Prompt   (2022-2023, 业界共识) — 调词
  Context  (2025-06, Karpathy) — 布信息
  Harness  (2026-02, Hashimoto+OpenAI) — 调环境
  Intent   (2026+, MixLab)  — 翻译人机接口

模型是地基，工具是砖头，协议是水泥。 驾驭工程是脚手架。 意图工程则是设计图纸。 而意图对齐 —— 才是建筑的灵魂。

当所有人都跑去挖地基、搬砖头的时候， 真正的建筑师在画图纸。

而图纸画得好不好 —— 不取决于你会用什么软件，不取决于你盖过多少楼， 只取决于你能不能听懂甲方的"我想要一个家"。

意图工程，就是听懂"我想要"这门学科。

最好的界面，是意图对齐。

参考

[1] Mitchell Hashimoto, My AI Adoption Journey— mitchellh.com [2] OpenAI,Harness Engineering: Leveraging Codex in an Agent-First World— OpenAI Blog [3] Andrej Karpathy,2025 LLM Year in Review— karpathy.bearblog.dev [4] Anthropic,Model Context Protocol— modelcontextprotocol.io [5] Google,Agent2Agent Protocol— Google Cloud Next 25 [6]The Life-Harness Paper— via @rohit4verse Twitter [7] Karpathy 2025-06-25 推文 — Twitter [8] mixlab 知识卡,人机协作界面重定义— mixlab无界社区/knowledge [9] mixlab 知识卡,Agentic UI：可丢弃界面 / 生成式 UI / 持久化基底 — mixlab无界社区/knowledge

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-06-06，如有侵权请联系 cloudcommunity@tencent.com 删除

模型