这篇文章想讲清楚一件事:模型、工具、协议三层商品化之后,下一阶段的竞争在人机接口处。
这一层我想给它起个名字,叫意图工程(Intent Engineering)。
驾驭工程关注"修机"(让 Agent 不犯重复错),意图工程关注"修人机接口"(让人脑模糊意图无损送达硅基系统)。
AI 应用开发的范式正在迁移。前三段是业界共识,第四段是趋势
提示工程 Prompt Engineering ← 2022-2023
│ 调词;让模型"听懂话"
↓
上下文工程 Context Engineering ← 2025-06 (Karpathy 推文)
│ 布信息;让模型"够得着用得上"
↓
驾驭工程 Harness Engineering ← 2026-02-05 (Hashimoto 命名)
│ 调环境;让 Agent 不犯重复错
↓ 2026-02-11 (OpenAI 百万行代码实验跟进)
意图工程 Intent Engineering
│ 翻译人机接口;让"我想要"无损送达
│ 与驾驭工程的边界:驾驭工程修"机",
│ 意图工程修"人机接口"
↓
四个阶段,关注点逐步迁移:
前三段在"硅基世界"内部打转。意图工程第一次把"碳基直觉"提到最优先级
和驾驭工程的关键差异:
驾驭工程让机器不犯错,
意图工程让机器听懂人。
模型层:GPT-4 到 GPT-4o 到 GPT-5,能力提升的曲线逐步平缓。基准分数的天花板正在被所有头部玩家共同触及。Claude、Gemini、DeepSeek、Qwen、Llama,闭源开源、欧美中国,能力差距在半年内被缩小差距。
工具层:LangChain 教会了大家"链式调用",然后被大家抛弃。ReAct、AutoGPT、Function Calling(函数调用)、Tools API,标准化得太快了。今天写一套,明天就有平替。
协议层(2024-11 → 2025-04):
一旦有协议,就意味着接口被抽象,集成门槛降到极低。
尘埃落定。
模型是水电煤,工具是货架,协议是 HTTP。
这三层已经没有新机会了。
剩下的壁垒在哪里?
很多人会说:上下文工程才是壁垒。
错了一半。
Context 是管道,Harness 是脚手架。但它们都不是产品。
你把公司的所有文档、聊天客诉历史、会议记录、客户工单,整理成一个检索增强生成(RAG)的上下文包 —— 这事,任何一个 SaaS 都能做,甚至普通用户vibe几下也可以做。
Notion AI 能做,Slack AI 能做,Microsoft Copilot 能做。
差别是接入成本、计费方式、UI 风格。但这些差异,会被时间和产品迭代磨平。
你搭一个 harness,让 Agent 不再犯重复错误:OpenAI 在今年2月发布的百万行代码实验报告已经把最佳实践开源。也就意味着,任何一个工程团队都能复刻。
真正决定用户体验的,是管道+脚手架两端的接口:
这个翻译层,恰恰是用户每天摸到、看到、感受到的东西。
它是产品,也是壁垒。
更是人机交互(HCI)的创新之处。
把意图传输当成一个通信问题看:
[人的意图]──信号──▶[交互层]──信号──▶ [模型与工具]
(碳基) ↑ ↑ (硅基)
│ │
失真 A 失真 B
失真 A:发生在碳基→交互层。人的"我想要一个不无聊的 demo"在脑子里是一团感受,到了键盘上变成了"写一个 Python 脚本生成柱状图"。
失真 B:发生在交互层→硅基。Prompt 进了大语言模型,被Token化、被系统提示覆盖、被上下文窗口挤压。一句"刚才那个"在 128k 上下文里可能被淹没 — 上下文腐烂
每一次失真,意图的保真度都在衰减。
意图工程的目标,就是让这条链路上的总失真率,逼近零。
这是一个工程问题:
最高保真度的交互是什么样的?
界面消失。
你不再"使用"产品,你就在产品里。
像写作时用笔,像画家用笔刷,像 DJ 用唱机。
意图在指尖流出去,动作在指尖落下来,中间没有翻译损失。
这就是"最好的界面,是意图对齐"
认知科学家 Clark 和 Chalmers 1998 年提过"延伸心智":人脑、笔记本、笔共同构成一个认知系统。
AI Agent 正在让"笔记本"变成"第二大脑",延伸出去的心智,保真度反而成了新问题:还算不算"你的"?

意图从人到机器的信号失真:碳基直觉如何衰减
下面四个案例是定性比较,不是量化 benchmark —— 业界目前没有衡量标尺。
🟢 高保真:Cursor
你不需要告诉它"用 Python 写一个 FastAPI 接口,调用 OpenAI,要流式输出"。
你只需要说"加个 chat 接口",它看懂了整个项目的结构、依赖、命名习惯、测试约定。
意图工程视角:在 harness 治理之上,Cursor 在人机接口处已经做到了"你不需要告诉它怎么实现,只需要告诉它你想要什么" —— 这就是意图高保真的体现。
Karpathy 2025 年终总结里把 Cursor 称为"new layer of LLM apps",核心是上下文工程 + 多调用编排 + 自主度滑块(autonomy slider)+ 用户反馈式人机协同(human-in-the-loop GUI)
🟡 中保真:v0 / Bolt.new
你描述一个产品想法,它生成 UI 草图。但你必须自己微调:颜色不对、布局不对、文案不对。
它猜到了你的形,没猜到你的意。
意图工程视角:人机接口处的反问/澄清机制弱:意图层的反馈回路不闭环。
🟠 低保真:Humane AI Pin / Rabbit R1
意图输入没有问题(语音、摄像头),但意图翻译烂掉了。用户说"帮我点杯咖啡",它要么不会,要么点了错误的咖啡、错误的地址、错误的支付方式。
意图工程视角:这是人机接口的意图翻译层失败,这和驾驭工程无关(它不是 harness 治理问题),纯粹是"听不懂人话"。再酷的硬件也救不回来。
ps:Pin 的工业设计得过 IF 设计奖,但工业设计救不回意图工程的失败
🔴 零保真:通用 Chatbot
典型代表豆包
你问"我想做个产品",它回答"哇好棒!你可以先做用户研究!"
它没有帮你做意图工程,它在帮你回避意图。
模型能力只是入场券,意图对齐才是壁垒。
驾驭工程是可量化的(来自 Life-Harness 论文,2026):126 套模型-环境组合中 116 套因 harness 优化而提升,平均 +88.5%(18 个 backbone)。
意图工程暂时还没有测量方法和相关研究。
最近,还有个趋势 Agentic UI(智能体界面):
一次性界面(Disposable UI)
生成式界面(Generative UI)(如Google搜索的生成式界面)
是意图工程的早期形态在产品上的表现。
从"界面长什么样",到"界面背后的意图怎么对齐"。
如果把意图工程当成一门学科,它至少有四个维度:
高结构化
│
② 工具编排 │ ③ 协议设计
(Function │ (MCP / A2A /
Calling) │ Intent DSL)
│
低自由度 ─────────┼────────── 高自由度
│
① 交互形态 │ ④ 反馈回路
(多模态/ │ (Reflection /
示范) │ 主动澄清)
│
低结构化
一个真正优秀的意图工程产品,必须把这四象限同时做对。
缺一个,都不“完美”
与驾驭工程的边界:四象限中的"② 工具编排"和"③ 协议设计"和驾驭工程有关;"① 交互形态"和"④ 反馈回路"主要在意图工程范畴。
重叠区是"用 harness 治理 agent 行为 + 用交互层收集意图反馈"的协同。
不要再沉迷于我会写 prompt。 Prompt 是 5 年前的特长,今天是基本功。 你真正的杠杆是设计意图-动作的映射:
会写 prompt 的工程师有 2000 万(不止)。
会设计意图-动作映射的工程师,价值 100 倍。
你在做 AI 应用?好。 问问自己:
如果答案都是"我们用 GPT-5.5 加 RAG 加 Agentic Loop" ——
那你做的是商品。 商品没有壁垒。
商品会输给下一个用新模型重做一遍的团队。
未来的 AI 应用公司估值,应该看两个并列指标:
低密度的,就是套壳。
两个都高 = 下一个 Notion、下一个 Figma、下一个 Excel。
如果你拆开看:
那"意图工程"到底新在哪?
新在系统性整合优秀思想和经验成果。把零散在多模态界面、交互设计、对话式设计里的实践,集中到"人机接口处意图对齐"这一层,作为单独学科来对待。
但学科和工程化产品之间,还有相当距离。
今天能宣称"Intent Engineering 已经工程化"的团队,几乎没有。
我们更应该把意图工程当成一个正在浮现的研究方向,而不是一个已经成型的解决方案。
30 年前,PC 软件是命令式的。 20 年前,图形用户界面(GUI)让"点"代替了"打"。 10 年前,手机让"滑"代替了"点"。 今天,AI 让"说"代替了"滑"。
每一次媒介进化,意图的输入带宽都在增加,操作的认知负担都在降低。 人离"我想要"越来越近,离"怎么做"越来越远。
下一个十年,意图工程 + 驾驭工程的极致是什么?
驾驭工程解决"机":让 Agent 永远在你电脑上跑着。
意图工程解决"人机接口":
你不再需要告诉它你想要什么。它已经知道。它知道你今早没睡好,知道你今天 deadline 在三点,知道你去年被这个方案坑过,知道你老板喜欢看图表不喜欢看表格。
它在你开口之前,已经把答案准备好了。
不是读心。 是长期、低损耗的意图建模,让机器的理解逼近你的表达。
那时候,界面就消失了。 你不会说"我用 XX 产品",你会说"我做了 XX 事"。 意图直达动作,中间没有"使用"这一环。
这是人机协作的终极形态: 不是机器更聪明,是机器更懂你。
══════════════════════════════════════
完整人机协作系统(4 层架构)
═══════════════════════════════════════
[人的意图] ──意图工程──▶ [驾驭+上下文] ──▶ [模型+工具]
模糊 · 完整 管道 · 脚手架 精确 · 商品
▲ │
│ │
└──── 反馈回路 ──────┘
══════════════════════════════════════
业界 3 段共识 + 新第 4 段
═════════════════════════════════════
Prompt (2022-2023, 业界共识) — 调词
Context (2025-06, Karpathy) — 布信息
Harness (2026-02, Hashimoto+OpenAI) — 调环境
Intent (2026+, MixLab) — 翻译人机接口
模型是地基,工具是砖头,协议是水泥。 驾驭工程是脚手架。 意图工程则是设计图纸。 而意图对齐 —— 才是建筑的灵魂。
当所有人都跑去挖地基、搬砖头的时候, 真正的建筑师在画图纸。
而图纸画得好不好 —— 不取决于你会用什么软件, 不取决于你盖过多少楼, 只取决于你能不能听懂甲方的"我想要一个家"。
意图工程,就是听懂"我想要"这门学科。
最好的界面,是意图对齐。
[1] Mitchell Hashimoto, My AI Adoption Journey— mitchellh.com [2] OpenAI,Harness Engineering: Leveraging Codex in an Agent-First World— OpenAI Blog [3] Andrej Karpathy,2025 LLM Year in Review— karpathy.bearblog.dev [4] Anthropic,Model Context Protocol— modelcontextprotocol.io [5] Google,Agent2Agent Protocol— Google Cloud Next 25 [6]The Life-Harness Paper— via @rohit4verse Twitter [7] Karpathy 2025-06-25 推文 — Twitter [8] mixlab 知识卡,人机协作界面重定义— mixlab无界社区/knowledge [9] mixlab 知识卡,Agentic UI:可丢弃界面 / 生成式 UI / 持久化基底 — mixlab无界社区/knowledge