中国程序员用不上 Claude Code,DeepSeek 为什么必须打一场 Harness 之战?

模型之外,皆是战场:AI 编程真正的护城河,不是会写代码,而是能把活干完。

配图一:Harness 不是工具,而是 AI 编程的作战系统。
作者|凯哥讲 AI
模型之外,皆是战场:AI 编程真正的护城河,不是会写代码,而是能把活干完。
凌晨一点半,杭州滨江一个写后端的朋友,给我发来一段终端录像。
屏幕里,一个 AI 编程工具正在自己读代码、改文件、跑测试、看报错,然后继续改。它不像过去那些代码助手,只是热情地吐出一段代码,让人复制粘贴。它更像一个刚入职但很能熬夜的工程师,坐在你旁边,沉默地翻项目、查依赖、跑命令,偶尔犯错,但知道回头。
朋友看完以后,说了一句很朴素的话:
这东西如果中国程序员长期用不上,麻烦就大了。
他说的东西,是 Claude Code。
这两年,很多中国开发者都听过它,也见过截图,甚至借过朋友的海外账号。它不是最早的 AI 编程产品,却像一把刀,把 AI 编程从“写代码玩具”切到了“工程代理”的阶段。
可麻烦在于,Claude Code 并不真正向中国开发者开放。
这就像 20 年前,最好的 IDE、最好的云服务、最好的软件工程实践,正在别人那里成为新常识,而你只能站在门外,从窗口缝里看一眼。看得越清楚,心里越不是滋味。
很多事情,刚开始只是工具差距。时间拉长以后,才会发现,那其实是一代工作方式的差距。
5 月中下旬,DeepSeek 开始公开招人。
这本来不是什么大新闻。AI 公司招产品经理、招研发工程师,现在像深圳湾的写字楼电梯一样,每天都在发生。
但这次不太一样。
DeepSeek 要组建的是一个全新的 Harness 团队,要从零开始做一个对标 Claude Code 的代码智能体产品。
官网岗位里有一句很醒目的公式:
Model + Harness = Agent。
这句话看起来像工程师写给工程师看的黑话,但里面藏着 AI 下半场最重要的变化。
过去几年,大家争的是模型。谁参数更多,谁上下文更长,谁榜单分数更高,谁推理价格更便宜。模型像武林高手,大家比内力,比招式,比谁能一掌打碎石碑。
但到了 Agent 时代,光有内力不够了。
你要进现场。你要看代码库,要读项目规则,要知道哪些文件能改、哪些命令不能跑,要会失败后回滚,要会在上下文快爆的时候压缩记忆,要能把一次次报错变成下一次动作。
这套让模型进入真实工作现场的系统,就是 Harness。
所以 DeepSeek 这次招的,不只是几个人,而是一支补课队。补的不是模型课,而是“模型如何变成产品、产品如何进入工作流、工作流如何形成飞轮”的课。
中国开发者并不缺聪明。
从 PC 互联网到移动互联网,从电商、支付、外卖、短视频,到后来的云原生和大数据,中国工程师最擅长的一件事,就是把复杂系统做成能跑、能卷、能落地的东西。
可这一次,情况有点别扭。
Claude Code 这样的产品,正在国外开发者生态里快速进化。它每天被真实开发者使用,遇到真实代码库、真实权限、真实测试、真实 bug、真实脾气。每一次失败、每一次用户修正、每一次任务半途跑偏,都会成为产品和模型下一轮进化的燃料。
中国开发者如果只能旁观,失去的不是一个软件。
失去的是现场。
现场才是最贵的东西。
论文可以看,模型可以追,开源代码可以读。但一个产品每天在真实工作里挨骂、摔跤、爬起来,再把这些失败组织成工程能力,这种经验不是复制界面就能得到的。
所以 DeepSeek 做 Harness,最直接的背景不是“我们也想做一个工具”。更准确地说,是:
我们没有别的选择。
如果最好的 AI 编程工作方式长期在别人那里成熟,而中国开发者只能通过灰色渠道体验,那么时间久了,差距就会从工具层,扩散到工程习惯、组织流程、开发者生态,甚至模型训练数据本身。
技术封锁最狠的地方,不一定是封模型。
有时候,是封工作流。
几年前,语言模型处理的任务还很轻。
你给它一段文字,让它总结、翻译、分类、判断情绪,几十个 token,几秒钟就结束。那时候,模型能力几乎决定一切。
现在不一样了。
一个 coding agent 要面对的是一整个代码库。它要理解项目结构,定位问题,写补丁,跑测试,看日志,再修正。一次任务可能跑几十分钟,消耗上百万甚至上千万 token,背后有数百次工具调用。
这个阶段,模型本身已经撑不起全部体验。
它需要一套外骨骼。
Harness 负责组织代码库、项目规则、上下文摘要;负责控制迭代次数、重试策略和任务边界;负责把模型的判断转成 shell 命令、文件编辑、测试执行;再把测试失败、日志输出、浏览器截图重新喂回模型。
它让模型从一次性回答,变成一个可以持续行动的工程代理。
这就是为什么同一个模型,放进不同 Harness,效果会差那么多。
这也像餐饮行业。你说一家饭店不过就是“点菜、炒菜、上菜、收钱”。这当然没错。但同样是这个循环,路边摊、中央厨房和米其林餐厅,背后的采购、动线、火候、质检、服务、复盘,完全不是一回事。
Claude Code 的核心循环并不神秘:调用模型,运行工具,拿到反馈,再继续调用模型。
真正厉害的是外围细节:权限控制、上下文压缩、MCP 工具、插件、Skills、Hooks、Subagent 调度、会话存储、安全策略。
这些东西加起来,才把一个简单循环包成了可以长时间运行的工程系统。
所以今天 AI 编程真正的分水岭,不是“它会不会写代码”。
而是你给它一句“修这个 bug”,它到底是给你一段建议,还是沿着代码库一路走下去,定位、修改、运行、报错、再修。
前者叫助手。
后者才叫 Agent。
做一个像 Claude Code 的外观,其实不算太难。
接一个模型,给它文件读写,开放终端命令,做一个对话窗口,做几个按钮,再加一点项目记忆,Demo 很快就能跑起来。
但真正难的是,怎样让它在真实工程里长期稳定地干活。
工程任务不是一锤子买卖。它是持续的“修改—测试—出错—再修改”。一个只能稳定跑几分钟的 Agent,本质上还是代码助手;一个能跑几十分钟、几小时,甚至在复杂任务里持续推进的 Agent,才开始像真正的工程代理。
长时间运行最难的地方,不是模型不聪明,而是它太容易迷路。
上下文越跑越乱,规划越跑越散,任务边界越来越模糊。它还经常高估自己的完成度,明明只做了半成品,却很自信地告诉你:好了。
人类工程师也会这样。
只不过人类工程师说“好了”以后,测试同学会找他,产品经理会追他,线上报警会教育他。模型如果没有 Harness,就缺少这些现实世界的约束。
所以 Harness 本质上是在给模型补现实。
它让模型知道,什么叫权限,什么叫失败,什么叫回滚,什么叫未完成,什么叫不要胡来,什么叫等人确认。
这也是 DeepSeek 真正要面对的挑战:不是做一个代码助手的壳,而是建立一个长时运行闭环,让 DeepSeek 模型在真实代码库里工作,让 Harness 记录它在哪里失败、为什么失败、用户怎么修正,再把这些失败变成下一轮产品设计、工具设计和模型训练的输入。
如果只做模型,DeepSeek 永远会被包在别人的工具里。
如果能跑通模型和 Harness 共同进化的循环,它才有机会长出自己的 Claude Code。

凯哥一直讲精益 AI,有一个核心判断:
AI 的价值,不在生成,而在交付。
很多企业搞 AI 转型,第一步接大模型,第二步做聊天窗口,第三步让员工提问。
刚开始大家都很兴奋。它会写周报,会总结会议,会起标题,会润色邮件。过两个月再看,流程还是流程,系统还是系统,审批还是审批,知识还是散在各个角落里。
为什么?
因为 AI 还停在“回答问题”这一层,没有进入企业真正的价值流。
企业里真正重要的东西,不在一段漂亮回答里,而在流程、数据、知识、规则、例外、工具和人的判断里。
精益 AI 的五层能力,是 Flow、Data、Knowledge、Intelligence、Action。
Flow 是业务流,决定工作怎么发生;Data 是高质量数据,决定智能有没有燃料;Knowledge 是知识资产,决定经验能不能复用;Intelligence 是模型推理,决定系统能不能判断;Action 是行动交付,决定 AI 能不能把结果带回业务。
Harness 正好是把这五层连起来的运营中枢。
它从 Flow 里拿任务,从 Data 和 Knowledge 里取上下文,让 Intelligence 做推理,再通过 Action 调工具、改文件、跑流程、交付结果。
没有 Harness,模型只是能力。
有了 Harness,模型才开始变成生产力。
很多公司喜欢讲成功案例。
但 Agent 产品最值钱的地方,恰恰不是成功,而是失败。
用户说:它乱改文件了,怎么办?
模型跑了 40 分钟,说完成了,其实只完成了一半,怎么办?
上下文爆了,关键信息丢了,怎么办?
命令有风险,权限怎么管?
多个子 Agent 互相打架,谁来裁决?
测试失败了,是代码错、测试错、环境错,还是模型理解错?
这些问题没有一句 Prompt 能解决。
它们需要产品、工程、模型、安全、数据、组织一起进化。
这也是为什么 Harness 最终会成为 AI 原生企业的核心能力。它不是工具箱,而是组织的智能操作系统。
未来企业问的,可能不再是:你们用了哪个大模型?
而是:
你的 Agent 能跑多长任务?
能接多少系统?
能不能审计每一次行动?
能不能在关键节点让人介入?
能不能从失败中学习?
能不能把一个业务目标拆成任务、工具调用、反馈修正和最终交付?
到了那一天,模型仍然重要,但它不再是全部。
真正拉开差距的,是模型之外的系统能力。
每次技术浪潮刚起来的时候,最热闹的地方都在发布会。
更强的模型,更长的上下文,更低的价格,更漂亮的榜单。
大家鼓掌,转发,截图,做表格。
但真正的生产力革命,往往不是发生在聚光灯下,而是发生在终端、日志、权限弹窗、失败测试、回滚按钮和一个个没人愿意修的 bug 里。
Claude Code 让程序员震动,不是因为它会写一段漂亮代码,而是因为它会读报错、会重试、会回退、会接着干。
它把 AI 从“会回答”,推进到了“会持续工作”。
DeepSeek 如果能补上 Harness 这一层,补的不只是一个国产工具,而是中国开发者进入下一代软件生产现场的一张船票。
我们真正关心的,也不该只是有没有一个中国版 Claude Code。
更应该问:中国有没有自己的 Agent 工程飞轮?有没有自己的长时运行经验?有没有能力把模型放进真实业务现场里,持续打磨出属于自己的工作流、产品和组织方法?
如果答案是有,那么这件事的意义,就已经远远超过一个编程工具。
AI 下半场,拼的不会只是模型。
真正的竞争,将发生在模型之外:上下文如何管理,流程如何编排,工具如何接入,安全如何治理,结果如何交付,失败如何变成下一轮进化的燃料。
所有这些加在一起,才叫 Agent。
所以 DeepSeek 做 Harness,不是在修一个边角料,而是在争夺下一代 AI 工程体系的主战场。
它决定中国开发者未来拿到的,究竟只是一个聪明的聊天框,还是一套真正能进入生产现场、进入企业价值流、进入产业深水区的智能工作系统。
模型之外,皆是江湖。
谁能在这片江湖里,把能力做成系统,把系统做成交付,把交付做成飞轮,谁才更有机会走到最后。如何找场景? 如何让场景落地?
如何让企业建立起持续生产高质量场景的组织能力?
精益数据训练营/解决方案架构师特训营
从数据到价值:精益数据工作坊
数字化咨询教练陪跑服务:
数字化转型规划 | 顶层设计 |企业创新与运营
IT战略规划 | IT服务管理体系 | 数据治理