Kimi官方今日正式发布K2.6智能体模型,一个提示就能生成含视频英雄区域、WebGL着色器动画和真实后端系统的完整应用。
这款模型最硬核的升级在于支持12小时持续代码执行,支持4000+工具调用,跨Rust/Go/Python三语言。从前端优化到DevOps部署的全流程,单次运行完成4000个步骤,是前代版本的2.6倍。这和智谱一样都瞄准这一领域,为什么会选择这一方向可以参看:GLM-5.1夺开源模型第一,长程任务更稳,一句话就能生成文章短视频

一个提示词就能完成用户注册、登录、数据库、预订系统、管理仪表板的完整搭建和部署。不再需要单独的"现在构建后端"步骤。

在Humanity's Last Exam测试中,Kimi K2.6以54.0%的准确率小幅领先GPT-5.4和Claude Opus 4.6,但在BrowseComp测试中反而落后于Gemini 3.1 Pro。这种不稳定的表现曲线,恰好暴露了当前AI模型的真实处境——没有全能冠军,只有场景专家。

在ClawMark基准测试中,Kimi K2.6以0.684的平均得分排名第四,超越Gemini 3.1 Pro(0.682),完成任务100/100,总用时22.6小时。
Steve Oak表示:"我肯定会搞砸液体金属着色器,但K2.6看起来像是登陆页面的完全作弊码"。
生产环境使用时需要注意:
华为、Cursor等企业案例显示,这类技术正在改变人机协作的基本单位,从"单次问答"进化为"持续数天的联合编程会话"。长程任务越来越成为主流后,过去还可以结对的方式已经需要改变,人人都是项目经理就要成为现实。
开源地址:https://huggingface.co/moonshotai/Kimi-K2.6
技术博客:https://www.kimi.com/blog/kimi-k2-6