凯哥讲 AI｜模型之外，皆是战场

凯哥

发布于 2026-05-25 13:04:43

1500

文章被收录于专栏：凯哥讲故事系列凯哥讲故事系列

中国程序员用不上 Claude Code，DeepSeek 为什么必须打一场 Harness 之战？

模型之外，皆是战场：AI 编程真正的护城河，不是会写代码，而是能把活干完。

配图一：Harness 不是工具，而是 AI 编程的作战系统。

作者｜凯哥讲 AI

模型之外，皆是战场：AI 编程真正的护城河，不是会写代码，而是能把活干完。

凌晨一点半，杭州滨江一个写后端的朋友，给我发来一段终端录像。

屏幕里，一个 AI 编程工具正在自己读代码、改文件、跑测试、看报错，然后继续改。它不像过去那些代码助手，只是热情地吐出一段代码，让人复制粘贴。它更像一个刚入职但很能熬夜的工程师，坐在你旁边，沉默地翻项目、查依赖、跑命令，偶尔犯错，但知道回头。

朋友看完以后，说了一句很朴素的话：

这东西如果中国程序员长期用不上，麻烦就大了。

他说的东西，是 Claude Code。

这两年，很多中国开发者都听过它，也见过截图，甚至借过朋友的海外账号。它不是最早的 AI 编程产品，却像一把刀，把 AI 编程从“写代码玩具”切到了“工程代理”的阶段。

可麻烦在于，Claude Code 并不真正向中国开发者开放。

这就像 20 年前，最好的 IDE、最好的云服务、最好的软件工程实践，正在别人那里成为新常识，而你只能站在门外，从窗口缝里看一眼。看得越清楚，心里越不是滋味。

很多事情，刚开始只是工具差距。时间拉长以后，才会发现，那其实是一代工作方式的差距。

一、DeepSeek 招的不是人，是一支补课队

5 月中下旬，DeepSeek 开始公开招人。

这本来不是什么大新闻。AI 公司招产品经理、招研发工程师，现在像深圳湾的写字楼电梯一样，每天都在发生。

但这次不太一样。

DeepSeek 要组建的是一个全新的 Harness 团队，要从零开始做一个对标 Claude Code 的代码智能体产品。

官网岗位里有一句很醒目的公式：

Model + Harness = Agent。

这句话看起来像工程师写给工程师看的黑话，但里面藏着 AI 下半场最重要的变化。

过去几年，大家争的是模型。谁参数更多，谁上下文更长，谁榜单分数更高，谁推理价格更便宜。模型像武林高手，大家比内力，比招式，比谁能一掌打碎石碑。

但到了 Agent 时代，光有内力不够了。

你要进现场。你要看代码库，要读项目规则，要知道哪些文件能改、哪些命令不能跑，要会失败后回滚，要会在上下文快爆的时候压缩记忆，要能把一次次报错变成下一次动作。

这套让模型进入真实工作现场的系统，就是 Harness。

所以 DeepSeek 这次招的，不只是几个人，而是一支补课队。补的不是模型课，而是“模型如何变成产品、产品如何进入工作流、工作流如何形成飞轮”的课。

二、被挡在门外的，不只是 Claude Code

中国开发者并不缺聪明。

从 PC 互联网到移动互联网，从电商、支付、外卖、短视频，到后来的云原生和大数据，中国工程师最擅长的一件事，就是把复杂系统做成能跑、能卷、能落地的东西。

可这一次，情况有点别扭。

Claude Code 这样的产品，正在国外开发者生态里快速进化。它每天被真实开发者使用，遇到真实代码库、真实权限、真实测试、真实 bug、真实脾气。每一次失败、每一次用户修正、每一次任务半途跑偏，都会成为产品和模型下一轮进化的燃料。

中国开发者如果只能旁观，失去的不是一个软件。

失去的是现场。

现场才是最贵的东西。

论文可以看，模型可以追，开源代码可以读。但一个产品每天在真实工作里挨骂、摔跤、爬起来，再把这些失败组织成工程能力，这种经验不是复制界面就能得到的。

所以 DeepSeek 做 Harness，最直接的背景不是“我们也想做一个工具”。更准确地说，是：

我们没有别的选择。

如果最好的 AI 编程工作方式长期在别人那里成熟，而中国开发者只能通过灰色渠道体验，那么时间久了，差距就会从工具层，扩散到工程习惯、组织流程、开发者生态，甚至模型训练数据本身。

技术封锁最狠的地方，不一定是封模型。

有时候，是封工作流。

三、Harness 为什么突然成了必争之地

几年前，语言模型处理的任务还很轻。

你给它一段文字，让它总结、翻译、分类、判断情绪，几十个 token，几秒钟就结束。那时候，模型能力几乎决定一切。

现在不一样了。

一个 coding agent 要面对的是一整个代码库。它要理解项目结构，定位问题，写补丁，跑测试，看日志，再修正。一次任务可能跑几十分钟，消耗上百万甚至上千万 token，背后有数百次工具调用。

这个阶段，模型本身已经撑不起全部体验。

它需要一套外骨骼。

Harness 负责组织代码库、项目规则、上下文摘要；负责控制迭代次数、重试策略和任务边界；负责把模型的判断转成 shell 命令、文件编辑、测试执行；再把测试失败、日志输出、浏览器截图重新喂回模型。

它让模型从一次性回答，变成一个可以持续行动的工程代理。

这就是为什么同一个模型，放进不同 Harness，效果会差那么多。

这也像餐饮行业。你说一家饭店不过就是“点菜、炒菜、上菜、收钱”。这当然没错。但同样是这个循环，路边摊、中央厨房和米其林餐厅，背后的采购、动线、火候、质检、服务、复盘，完全不是一回事。

Claude Code 的核心循环并不神秘：调用模型，运行工具，拿到反馈，再继续调用模型。

真正厉害的是外围细节：权限控制、上下文压缩、MCP 工具、插件、Skills、Hooks、Subagent 调度、会话存储、安全策略。

这些东西加起来，才把一个简单循环包成了可以长时间运行的工程系统。

所以今天 AI 编程真正的分水岭，不是“它会不会写代码”。

而是你给它一句“修这个 bug”，它到底是给你一段建议，还是沿着代码库一路走下去，定位、修改、运行、报错、再修。

前者叫助手。

后者才叫 Agent。

四、中国版 Claude Code，难点不在“像不像”

做一个像 Claude Code 的外观，其实不算太难。

接一个模型，给它文件读写，开放终端命令，做一个对话窗口，做几个按钮，再加一点项目记忆，Demo 很快就能跑起来。

但真正难的是，怎样让它在真实工程里长期稳定地干活。

工程任务不是一锤子买卖。它是持续的“修改—测试—出错—再修改”。一个只能稳定跑几分钟的 Agent，本质上还是代码助手；一个能跑几十分钟、几小时，甚至在复杂任务里持续推进的 Agent，才开始像真正的工程代理。

长时间运行最难的地方，不是模型不聪明，而是它太容易迷路。

上下文越跑越乱，规划越跑越散，任务边界越来越模糊。它还经常高估自己的完成度，明明只做了半成品，却很自信地告诉你：好了。

人类工程师也会这样。

只不过人类工程师说“好了”以后，测试同学会找他，产品经理会追他，线上报警会教育他。模型如果没有 Harness，就缺少这些现实世界的约束。

所以 Harness 本质上是在给模型补现实。

它让模型知道，什么叫权限，什么叫失败，什么叫回滚，什么叫未完成，什么叫不要胡来，什么叫等人确认。

这也是 DeepSeek 真正要面对的挑战：不是做一个代码助手的壳，而是建立一个长时运行闭环，让 DeepSeek 模型在真实代码库里工作，让 Harness 记录它在哪里失败、为什么失败、用户怎么修正，再把这些失败变成下一轮产品设计、工具设计和模型训练的输入。

如果只做模型，DeepSeek 永远会被包在别人的工具里。

如果能跑通模型和 Harness 共同进化的循环，它才有机会长出自己的 Claude Code。

五、精益 AI 看重的，不是生成，而是交付

凯哥一直讲精益 AI，有一个核心判断：

AI 的价值，不在生成，而在交付。

很多企业搞 AI 转型，第一步接大模型，第二步做聊天窗口，第三步让员工提问。

刚开始大家都很兴奋。它会写周报，会总结会议，会起标题，会润色邮件。过两个月再看，流程还是流程，系统还是系统，审批还是审批，知识还是散在各个角落里。

为什么？

因为 AI 还停在“回答问题”这一层，没有进入企业真正的价值流。

企业里真正重要的东西，不在一段漂亮回答里，而在流程、数据、知识、规则、例外、工具和人的判断里。

精益 AI 的五层能力，是 Flow、Data、Knowledge、Intelligence、Action。

Flow 是业务流，决定工作怎么发生；Data 是高质量数据，决定智能有没有燃料；Knowledge 是知识资产，决定经验能不能复用；Intelligence 是模型推理，决定系统能不能判断；Action 是行动交付，决定 AI 能不能把结果带回业务。

Harness 正好是把这五层连起来的运营中枢。

它从 Flow 里拿任务，从 Data 和 Knowledge 里取上下文，让 Intelligence 做推理，再通过 Action 调工具、改文件、跑流程、交付结果。

没有 Harness，模型只是能力。

有了 Harness，模型才开始变成生产力。

六、真正的护城河，是失败之后怎么处理

很多公司喜欢讲成功案例。

但 Agent 产品最值钱的地方，恰恰不是成功，而是失败。

用户说：它乱改文件了，怎么办？

模型跑了 40 分钟，说完成了，其实只完成了一半，怎么办？

上下文爆了，关键信息丢了，怎么办？

命令有风险，权限怎么管？

多个子 Agent 互相打架，谁来裁决？

测试失败了，是代码错、测试错、环境错，还是模型理解错？

这些问题没有一句 Prompt 能解决。

它们需要产品、工程、模型、安全、数据、组织一起进化。

这也是为什么 Harness 最终会成为 AI 原生企业的核心能力。它不是工具箱，而是组织的智能操作系统。

未来企业问的，可能不再是：你们用了哪个大模型？

而是：

你的 Agent 能跑多长任务？

能接多少系统？

能不能审计每一次行动？

能不能在关键节点让人介入？

能不能从失败中学习？

能不能把一个业务目标拆成任务、工具调用、反馈修正和最终交付？

到了那一天，模型仍然重要，但它不再是全部。

真正拉开差距的，是模型之外的系统能力。

七、这场仗，最后打的是生产现场

每次技术浪潮刚起来的时候，最热闹的地方都在发布会。

更强的模型，更长的上下文，更低的价格，更漂亮的榜单。

大家鼓掌，转发，截图，做表格。

但真正的生产力革命，往往不是发生在聚光灯下，而是发生在终端、日志、权限弹窗、失败测试、回滚按钮和一个个没人愿意修的 bug 里。

Claude Code 让程序员震动，不是因为它会写一段漂亮代码，而是因为它会读报错、会重试、会回退、会接着干。

它把 AI 从“会回答”，推进到了“会持续工作”。

DeepSeek 如果能补上 Harness 这一层，补的不只是一个国产工具，而是中国开发者进入下一代软件生产现场的一张船票。

我们真正关心的，也不该只是有没有一个中国版 Claude Code。

更应该问：中国有没有自己的 Agent 工程飞轮？有没有自己的长时运行经验？有没有能力把模型放进真实业务现场里，持续打磨出属于自己的工作流、产品和组织方法？

如果答案是有，那么这件事的意义，就已经远远超过一个编程工具。

结语：模型之外，皆是江湖

AI 下半场，拼的不会只是模型。

真正的竞争，将发生在模型之外：上下文如何管理，流程如何编排，工具如何接入，安全如何治理，结果如何交付，失败如何变成下一轮进化的燃料。

所有这些加在一起，才叫 Agent。

所以 DeepSeek 做 Harness，不是在修一个边角料，而是在争夺下一代 AI 工程体系的主战场。

它决定中国开发者未来拿到的，究竟只是一个聪明的聊天框，还是一套真正能进入生产现场、进入企业价值流、进入产业深水区的智能工作系统。

模型之外，皆是江湖。

谁能在这片江湖里，把能力做成系统，把系统做成交付，把交付做成飞轮，谁才更有机会走到最后。如何找场景？如何让场景落地？

如何让企业建立起持续生产高质量场景的组织能力？

精益数据训练营/解决方案架构师特训营

从数据到价值：精益数据工作坊

数字化咨询教练陪跑服务：

数字化转型规划 | 顶层设计 |企业创新与运营

IT战略规划 | IT服务管理体系 | 数据治理

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-05-25，如有侵权请联系 cloudcommunity@tencent.com 删除

系统

本文分享自凯哥讲故事系列微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度