
最近一直在业务场景中落地Agent,加班很多,新鲜的感悟也很多。
最简单的结论是,AI可以用10%的时间帮你快速完成前90%甚至99%的事情,但是剩下那1%却需要你90%的时间。
魔鬼在细节,如果你缺少剩下那1%的经验,你可能觉得AI无所不能,但是你有了那1%的经验,你才知道一个Agent的建设理想态是什么样的。
昨天我们的第一个业务场景Agent上线了。
人标的效果准确率100%,但是AI评测的效果准确率只有50%。
拉case对比了下,第一感觉就是,这完全是为了AI评测而评测啊。
“我们现在的评测系统,本质是在用一个低智能的框架,去限制、阉割、惩罚高智能。”
为什么这么说?核心矛盾在“指令遵循”这四个字上。
表面看,指令遵循天经地义——Agent按你说的做,难道不是底线吗?
但拆开看,问题就来了。
大模型的优势恰恰在于它不按步骤走:它可以跳步、并行、重组、换解法、用隐藏知识。过程不按你写的来,甚至看起来像“乱编”,但结果更优、更快、更泛化。
传统评测里,一个只会按模板走的模型拿满分;一个能举一反三、灵活解题的模型,反而被判“不遵循指令”。
这哪是评测?这是反向筛选。
传统指令遵循,要的是服从性测试。
但作为智能体,它不需要预设唯一正确路径,允许多种解法。
传统评测只会惩罚泛化,但好的评测标准不是只看过程,而是结果+约束。
最简单的标准就是context,not control。
这件事的本质,是用错了评测对象。
智能体不是机器臂,不需要每一步都按程序走。它的价值在于:给定目标,找到最优路径。
所以评测的根本逻辑应该是四个维度:
1. 目标达成度——任务有没有完成?
2. 约束合规性——不该做的有没有做?
3. 逻辑自洽性——过程是不是自圆其说?
4. 效率与代价——步骤是否精简?
而以下这些东西,根本不该出现在评测里:
· 步骤顺序
· 是不是线性
· 有没有跳步、并行、自创解法
· 是不是跟“标准答案”一样
就像写作文,不看立意文笔,只看你有没有按“总-分-总”结构写。这不是评测,是束缚。
更讽刺的是,当Agent架构里的Prompt本身由模型自动生成时,再去评测“原始指令是否被遵循”,就成了典型的“脱裤子放屁”。
因为Prompt已经承担了“对齐指令”的工作。你真正要评测的,是Prompt执行得好不好、有没有越界、有没有完成目标——而不是去抠原始指令的字面细节。
指令遵循评测,本质上是在测“笨模型听话程度”,而不是在测“强智能的能力”。
高智商模型能跳步、合并、重组,结果更优、更快。但在老评测体系里,它被判“不遵循指令”。
这不是模型不行,是评测体系太蠢。
所以回到那个比喻:用指令遵循评AI,就像用一个外行裁判去评一个内行球员。
裁判不看球进了没有,只看你运球是不是三步上篮。你跳投进了,他吹你违例。
这到底是评测,还是阉割?
真正好用的Agent评测,根本不需要“指令遵循”这套东西。只评:结果、安全、逻辑。
过程怎么来的,不重要。过程越灵活,说明智能越强。
如果你把注意力放到约束过程,模型的智力就很难发挥。
写好Agent,本身也是架构师智力的体现,他说如何抽象和管控扩展的,还是按部就班的。
你愿意被一个外行裁判,用小学生标准打分吗?