Cursor发布的CursorBench 3.1报告显示,其自研模型Composer 2.5在编程任务中拿到了63.2%的高分,性能直逼GPT-5.5和Claude Opus 4.8,但单次任务成本仅为0.55美元,几乎是竞品的十分之一。与此同时,第三方测试DeepSWE却给出了截然不同的低分。Cursor官方回应称,Composer 2.5针对IDE内的短程交互进行了密集的RL优化,更擅长处理代码补全和局部重构,而非长周期的复杂工程规划。
这场争议揭示了AI编程正在进入“场景平替”阶段。Cursor并没有试图在通用逻辑上超越顶级大模型,而是通过数据蒸馏和后训练,把开发者最常用的80%高频操作做到了极致的快和省。对于日常CRUD或UI调整,速度带来的爽感远超那点逻辑溢出;但在处理物理算法或底层架构等“深水区”任务时,顶级模型对边界条件的严谨掌控依然是刚需。未来的胜负不在于谁的参数更大,而在于谁能把昂贵的推理算力精准浪费在刀刃上。
cursor.com/cn/evals
#人工智能##AI创造营##Cursor##大模型##编程工具#