编程能力逼近海外最强，智谱开源新一代旗舰模型

文章来源：企鹅号 - 北京日报客户端

6月17日，总部位于北京的国产大模型公司智谱上线并开源新一代旗舰大模型GLM-5.2。该模型主攻“长程任务”——让 AI 不再只做即时问答，而能像人一样连续工作数小时、自主跑完一个完整的大型工程。国产模型正加速实现从“答得好”到“干得久”的跨越。

“当下最需要模型突破的，是完成一个极长的，跨越数天、数周乃至数月的规划与执行。当一个模型不知疲倦地在写软件工程代码，本质上是在学习一名顶级软件工程师的思维方式，然后以机器的耐力将其放大，这是对一个又一个职业的重新定义。”智谱相关负责人解释长程任务的重要性。

要想“干得久”，延长模型的有效工作时长，需要克服一个难点：长上下文。技术人员介绍，一个持续工作数小时的智能体，要经历数千次工具调用、读写数万行代码、积累大量中间状态。如果上下文窗口不够长，模型就被迫不断压缩、丢弃、再回忆，每一次压缩都是信息损耗，每一次遗忘都可能让任务在第 N 步偏离第2步定下的约束条件。长程任务的失败，很多时候不是模型不够聪明，而是它“忘了”。

此次，GLM-5.2实现了一百万（即1M，百万级词元）上下文，为“干得久”打下了必备的基础设施。“只有当1M真正可用——效果不衰减、成本可承受，模型才能在一次任务中完整持有整个项目：全部代码、全部决策历史、全部约束条件，像一个不会忘事的工程师那样持续推进。”技术人员解释道。

智谱称，在 FrontierSWE（一个测试AI是否能够像顶级软件工程师和研究员一样，在数小时到数十小时尺度上完成复杂技术项目的测试集）、Terminal-Bench 等多个权威评测中，GLM-5.2与当前海外最强的Claude Opus 4.8仅相差约 1%到4%，是排名最高的开源模型。一个直观的例子是，用一句话描述需求，它就能自主完成开发、联调、测试到打包上线，几小时内交付一个网页、手机、小程序都能用的完整应用，而这过去往往需要一支团队干上数周。

智谱表示，通往通用人工智能的路上，还有更多的高山要翻越。下一步其将瞄向完全自治的智能体系统（Autonomous Agent System）。基于长程任务之上，让AI能够自主驱动、协同作业、7×24小时运转的智能体群体将成为新的生产力形态。从“智能助手”走向“数字员工”，构建包含成千上万个不同专业“性格”与“技能”的智能体社会，让它们自主辩论、协作、审查代码、调度资源，实现“自动驾驶”级别的数字生产力。

来源：北京日报客户端

记者：孙奇茹

发表于: 2026-06-172026-06-17 10:14:08
原文链接：https://page.om.qq.com/page/OtYz25bgrIDWBgvqdLJvTwGQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

编程能力逼近海外最强，智谱开源新一代旗舰模型

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐