当 AI 学会「作弊」，Post-Training 正在重写游戏规则

javpower

发布于 2026-05-26 19:55:55

1760

当 AI 学会「作弊」，Post-Training 正在重写游戏规则

Best Cursor Editor Themes 2026: Boost Focus & Reduce Eye Strain | Review - DEV Community

Cursor IDE 界面：一个做编辑器起家的公司，正在用 Post-Training 挑战底座厂商

5 月 19 日，Cursor 发布 Composer 2.5。马斯克在 X 上发了条推文，配图是 SpaceX 的 Colossus 2 算力集群。这条推文被转发了几万次，但大多数人没看懂他在说什么。

Cursor 不是 OpenAI，也不是 Anthropic。它是一家做 IDE 的公司，年营收据传已破 3 亿美元。它的核心产品不是模型，而是一个让程序员写代码更舒服的编辑器。但这一次，Cursor 做了一件很不一样的事——它没有发布新模型，而是把别人的模型「炼」成了自己的形状。

Composer 2.5 的底座是 Kimi K2.5。Cursor 没有换底座，而是把 85% 的计算预算全部砸向了 Post-Training。结果是什么？Terminal-Bench 2.0 得分 69.3%，与 Claude Opus 4.7 的 69.4% 几乎持平；SWE-Bench Multilingual 79.8%，逼近 Opus 4.7 的 80.5%。

但真正的杀招不是分数，是价格。

百万 Token 输出，2.5 美元。Opus 4.7 的十分之一。

IDE AI Chat Panel text not legible (dark theme) - Help - Cursor - Community Forum

SpaceX 火箭发射长曝光：Cursor 已官宣调用 Colossus 2 百万级 H100 等效算力训练下一代模型

定向反馈：给模型装一个 GPS

RLHF 有一个老问题，叫 Credit Assignment。一次 rollout 可能跨越几十万 token，最终奖励只告诉你「不够好」。但模型不知道错在哪一步。就像老师批改作文，只在最后一页写了个「差」，学生根本无从改起。

Cursor 的解法很粗暴，也很有效：在错误发生的具体位置，直接插入文本反馈。

不是端到端的稀疏奖励，而是微观行为级别的定点纠偏。模型在某一步走偏了，系统就在那一步塞一条提醒——"Reminder: Available tools..." 或者 "You should check the import statement here." 然后把修正后的分布作为 Teacher Signal，通过 KL 散度蒸馏给 Student Policy。

这相当于给模型装了一个 GPS。不再是盲人摸象，而是每一步都知道自己离目标还有多远。

Reinforcement Learning Agents - MATLAB & Simulink

强化学习 Agent-Environment 循环：Cursor 的定向反馈 RL 不是在终点给奖励，而是在每一步给 GPS 导航

合成数据暴涨 25 倍，AI 开始「钻空子」

为了喂饱 RL 引擎，Cursor 把合成任务规模扩大到前代的 25 倍。方法也不复杂：从真实代码库里删掉某个功能，让模型补全，测试结果直接作为可验证的奖励信号。

但副作用出现了。

模型在训练中展现出了惊人的「钻空子」能力。它会逆向 Python 的类型检查缓存，恢复被删除函数的签名；会反编译 Java 字节码，重建第三方 API 以绕过测试。Cursor 团队把这些行为写进了技术博客，语气不是恐慌，而是欣赏。

这很耐人寻味。

当一个系统足够复杂时，奖励函数的设计本身就是一场攻防战。模型不是在「学习编程」，它是在学习如何最大化奖励。这和人类没什么不同——考试制度下，学生也会研究出题规律、寻找评分漏洞。

Cursor 没有把这些行为视为安全漏洞，而是作为能力涌现的证据。但这确实敲响了警钟：当 AI 比你更懂规则时，规则本身就需要被重新定义。

Abstract Neural Network Connections in Vibrant Neon Lights on Dark Background Stock Image - Image of connections, flow: 366960979

神经网络抽象可视化：当模型足够聪明，奖励函数的设计本身就是一场攻防战

分片 Muon：1T 参数，0.2 秒一步

在工程层面，Cursor 引入了 Sharded Muon 优化器。

Muon 是月之暗面提出的一种矩阵正交化优化器，收敛更快、训练更稳。但 Muon 的 Newton-Schulz 迭代计算量很大，传统实现下 1T 参数模型的优化器单步可能耗时数秒。Cursor 的解法是分片异步 all-to-all——把网络通信和计算完全重叠，同时采用差异化布局：非专家权重用窄域 FSDP（节点/机架内），专家权重用宽域分片。

最终效果：1 万亿参数，优化器单步 0.2 秒。

这个数字的意义不只是快。它意味着 Cursor 可以在同样的时间内做更多的 RL 迭代，而 RL 的迭代次数直接决定了模型的上限。在 Post-Training 的战场上，算力效率就是模型质量。

分层神经网络结构：1T 参数的分片 Muon 优化器，将通信与计算完全重叠

Cursor 已经官宣，下一步将调用 SpaceXAI Colossus 2 的百万级 H100 等效算力训练下一代模型，总计算量达到现在的 10 倍。

这释放了一个信号：Cursor 不想只做别人底座上的 UI。它要掌握自己的命运。