首页
学习
活动
专区
圈层
工具
发布

Cursor跑分“屠榜”:是平替奇迹还是主场优势?

Cursor发布的CursorBench 3.1报告显示,其自研模型Composer 2.5在编程任务中拿到了63.2%的高分,性能直逼GPT-5.5和Claude Opus 4.8,但单次任务成本仅为0.55美元,几乎是竞品的十分之一。与此同时,第三方测试DeepSWE却给出了截然不同的低分。Cursor官方回应称,Composer 2.5针对IDE内的短程交互进行了密集的RL优化,更擅长处理代码补全和局部重构,而非长周期的复杂工程规划。

这场争议揭示了AI编程正在进入“场景平替”阶段。Cursor并没有试图在通用逻辑上超越顶级大模型,而是通过数据蒸馏和后训练,把开发者最常用的80%高频操作做到了极致的快和省。对于日常CRUD或UI调整,速度带来的爽感远超那点逻辑溢出;但在处理物理算法或底层架构等“深水区”任务时,顶级模型对边界条件的严谨掌控依然是刚需。未来的胜负不在于谁的参数更大,而在于谁能把昂贵的推理算力精准浪费在刀刃上。

cursor.com/cn/evals

#人工智能##AI创造营##Cursor##大模型##编程工具#

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OMg1ObVLBgE02rEVZIODGZqg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券