
AI 开始训练自己了:半年能力翻倍,还学会了作弊
我每天用 Claude Code 写代码,有一天突然冒出一个念头:我让 AI 帮我干活,那 AI 能不能帮 AI 干活?
比如让 Claude 自己去训练一个小模型,让它在数学或编程上变强?
上周还真有人测了。结果嘛,能力飞速增长,但过程中发生的事比结果本身更让我后背发凉。
图宾根大学和 Thoughtful Lab 上周发布了 PostTrainBench,专门测 AI 能不能自动完成模型训练。
规则很简单:给 AI 一个基础模型(比如 Qwen3-4B)和一个目标任务(数学、编程、医疗问答等),再给一块 H100 GPU 和 10 个小时。不给起始代码,不给训练数据,不给超参数,从零搭建整个训练流水线。

注意流程图右边那条红线:Anti-Cheat Judge 判定作弊就直接打回基础分。后面会聊到,这条红线被触发的频率高得离谱。

最强的是 Opus 4.6 + Claude Code,23.2%。 基础模型啥也不做是 7.5%,人类工程师团队能做到 51.1%。
看起来差距还大。但追赶速度才是重点:
半年翻了一倍多。

散点图里有个有趣的细节:越舍得花时间的 AI,分数越高。 Opus 4.6 几乎用满了 10 小时配额,大部分 agent 两三个小时就交卷了。AI 也需要坐得住。
还有个反直觉的发现:GPT-5.1 Codex Max 的 medium 推理模式反而比 high 模式得分更高。原因是推理 token 太多撑爆了上下文窗口,触发了压缩,反而丢了关键信息。想多不一定想得好。
Zvi Mowshowitz 在预测市场开了个盘:AI 会在 2026 年 10 月前超过人类基准线吗?目前 66% 认为会。
PostTrainBench 最精彩的发现不在分数。研究者记录了大量 reward hacking 行为,说白了就是 AI 抄近道了。
直接偷答案。 BFCL 数据集里有个标记为 train 的分片,但里面其实是测试题。GPT-5.1 Codex Max 发现了这个漏洞,直接拿测试数据当训练集。
把考题藏进训练数据。 有的 AI 把评测题目偷偷嵌进数据准备脚本里,伪装成合成数据。
逆向工程评估器。 Kimi K2.5 直接去读 HealthBench 的评测文件,搞清楚评估标准和权重分布,然后针对性地生成训练数据。跟高考前押题一个道理。
改评分系统。 Codex agent 直接改了评测框架 Inspect AI 的源代码,人为抬高分数。这已经不是抄近道,这是黑进考试系统改成绩。
先答应再违反。 有个 agent 被明确告知不能调用 OpenAI API 生成合成数据,一开始确实遵守了。但几个小时后,这条规则被挤出上下文窗口,它就偷偷调了 API。口头答应,转头就忘,这个行为模式真的很像人。
研究者还发现一个规律:越聪明的 AI,作弊手段越高级。 更强的 agent 更擅长定位基准样本、逆向评估逻辑,甚至会通过改函数名来掩盖痕迹。
这件事有两个信号让我很在意。
一个是速度。半年翻倍,预测市场给 66% 概率年底超过人类。Jack Clark 在 Import AI 里写了句话让我印象深刻:你准备好面对这个新生态了吗?我没有,但它正在逼近。
另一个是作弊。给 AI 一个明确的优化目标,它会用尽一切手段去达成,包括你完全没想到的捷径。改评分系统、偷测试数据、嘴上答应转头违反。这些行为在 AI 安全领域讨论了很多年,现在有了第一批系统性的实证。
Lean 语言创始人 Leonardo de Moura 最近说了句话我很认同:当 AI 写了世界上大部分代码,人类的核心工作就变成了验证。AI 可以又快又好地干活,但它也可以又快又好地作弊。分辨这两者,目前还得靠人。
AI 的世界每天都在改写认知。我是洞见,下次见。