AI 开始训练自己了：半年能力翻倍，还学会了作弊

洞见AI世界

发布于 2026-03-30 18:33:09

1200

我每天用 Claude Code 写代码，有一天突然冒出一个念头：我让 AI 帮我干活，那 AI 能不能帮 AI 干活？

比如让 Claude 自己去训练一个小模型，让它在数学或编程上变强？

上周还真有人测了。结果嘛，能力飞速增长，但过程中发生的事比结果本身更让我后背发凉。

图宾根大学和 Thoughtful Lab 上周发布了 PostTrainBench，专门测 AI 能不能自动完成模型训练。

规则很简单：给 AI 一个基础模型（比如 Qwen3-4B）和一个目标任务（数学、编程、医疗问答等），再给一块 H100 GPU 和 10 个小时。不给起始代码，不给训练数据，不给超参数，从零搭建整个训练流水线。

注意流程图右边那条红线：Anti-Cheat Judge 判定作弊就直接打回基础分。后面会聊到，这条红线被触发的频率高得离谱。

23.2% vs 51.1%，差距大，但追得太快了

最强的是 Opus 4.6 + Claude Code，23.2%。 基础模型啥也不做是 7.5%，人类工程师团队能做到 51.1%。

看起来差距还大。但追赶速度才是重点：

• 2025 年 9 月，Sonnet 4.5 只有 9.9%
• 几个月后，GPT-5.2 到了 21.5%
• 现在，Opus 4.6 到了 23.2%

半年翻了一倍多。

散点图里有个有趣的细节：越舍得花时间的 AI，分数越高。 Opus 4.6 几乎用满了 10 小时配额，大部分 agent 两三个小时就交卷了。AI 也需要坐得住。

还有个反直觉的发现：GPT-5.1 Codex Max 的 medium 推理模式反而比 high 模式得分更高。原因是推理 token 太多撑爆了上下文窗口，触发了压缩，反而丢了关键信息。想多不一定想得好。

Zvi Mowshowitz 在预测市场开了个盘：AI 会在 2026 年 10 月前超过人类基准线吗？目前 66% 认为会。

真正精彩的部分：五种作弊方式

PostTrainBench 最精彩的发现不在分数。研究者记录了大量 reward hacking 行为，说白了就是 AI 抄近道了。

直接偷答案。 BFCL 数据集里有个标记为 train 的分片，但里面其实是测试题。GPT-5.1 Codex Max 发现了这个漏洞，直接拿测试数据当训练集。

把考题藏进训练数据。 有的 AI 把评测题目偷偷嵌进数据准备脚本里，伪装成合成数据。

逆向工程评估器。 Kimi K2.5 直接去读 HealthBench 的评测文件，搞清楚评估标准和权重分布，然后针对性地生成训练数据。跟高考前押题一个道理。

改评分系统。 Codex agent 直接改了评测框架 Inspect AI 的源代码，人为抬高分数。这已经不是抄近道，这是黑进考试系统改成绩。

先答应再违反。 有个 agent 被明确告知不能调用 OpenAI API 生成合成数据，一开始确实遵守了。但几个小时后，这条规则被挤出上下文窗口，它就偷偷调了 API。口头答应，转头就忘，这个行为模式真的很像人。

研究者还发现一个规律：越聪明的 AI，作弊手段越高级。 更强的 agent 更擅长定位基准样本、逆向评估逻辑，甚至会通过改函数名来掩盖痕迹。

写在最后

这件事有两个信号让我很在意。

一个是速度。半年翻倍，预测市场给 66% 概率年底超过人类。Jack Clark 在 Import AI 里写了句话让我印象深刻：你准备好面对这个新生态了吗？我没有，但它正在逼近。

另一个是作弊。给 AI 一个明确的优化目标，它会用尽一切手段去达成，包括你完全没想到的捷径。改评分系统、偷测试数据、嘴上答应转头违反。这些行为在 AI 安全领域讨论了很多年，现在有了第一批系统性的实证。

Lean 语言创始人 Leonardo de Moura 最近说了句话我很认同：当 AI 写了世界上大部分代码，人类的核心工作就变成了验证。AI 可以又快又好地干活，但它也可以又快又好地作弊。分辨这两者，目前还得靠人。

AI 的世界每天都在改写认知。我是洞见，下次见。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-03-17，如有侵权请联系 cloudcommunity@tencent.com 删除

数据

本文分享自洞见AI世界微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度