首页
学习
活动
专区
圈层
工具
发布

编程能力逼近海外最强,智谱开源新一代旗舰模型

6月17日,总部位于北京的国产大模型公司智谱上线并开源新一代旗舰大模型GLM-5.2。该模型主攻“长程任务”——让 AI 不再只做即时问答,而能像人一样连续工作数小时、自主跑完一个完整的大型工程。国产模型正加速实现从“答得好”到“干得久”的跨越。

“当下最需要模型突破的,是完成一个极长的,跨越数天、数周乃至数月的规划与执行。当一个模型不知疲倦地在写软件工程代码,本质上是在学习一名顶级软件工程师的思维方式,然后以机器的耐力将其放大,这是对一个又一个职业的重新定义。”智谱相关负责人解释长程任务的重要性。

要想“干得久”,延长模型的有效工作时长,需要克服一个难点:长上下文。技术人员介绍,一个持续工作数小时的智能体,要经历数千次工具调用、读写数万行代码、积累大量中间状态。如果上下文窗口不够长,模型就被迫不断压缩、丢弃、再回忆,每一次压缩都是信息损耗,每一次遗忘都可能让任务在第 N 步偏离第2步定下的约束条件。长程任务的失败,很多时候不是模型不够聪明,而是它“忘了”。

此次,GLM-5.2实现了一百万(即1M,百万级词元)上下文,为“干得久”打下了必备的基础设施。“只有当1M真正可用——效果不衰减、成本可承受,模型才能在一次任务中完整持有整个项目:全部代码、全部决策历史、全部约束条件,像一个不会忘事的工程师那样持续推进。”技术人员解释道。

智谱称,在 FrontierSWE(一个测试AI是否能够像顶级软件工程师和研究员一样,在数小时到数十小时尺度上完成复杂技术项目的测试集)、Terminal-Bench 等多个权威评测中,GLM-5.2与当前海外最强的Claude Opus 4.8仅相差约 1%到4%,是排名最高的开源模型。一个直观的例子是,用一句话描述需求,它就能自主完成开发、联调、测试到打包上线,几小时内交付一个网页、手机、小程序都能用的完整应用,而这过去往往需要一支团队干上数周。

智谱表示,通往通用人工智能的路上,还有更多的高山要翻越。下一步其将瞄向完全自治的智能体系统(Autonomous Agent System)。基于长程任务之上,让AI能够自主驱动、协同作业、7×24小时运转的智能体群体将成为新的生产力形态。从“智能助手”走向“数字员工”,构建包含成千上万个不同专业“性格”与“技能”的智能体社会,让它们自主辩论、协作、审查代码、调度资源,实现“自动驾驶”级别的数字生产力。

来源:北京日报客户端

记者:孙奇茹

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OtYz25bgrIDWBgvqdLJvTwGQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券