感兴趣的开发者欢迎查看项目链接了解更多技术细节:GitHub:github.com/AGI-Eval-Official/Repo-of-AgentEscapeBench几个有趣的结论1.性能分化随难度急剧放大在简单题目(Diff 2.Claude-Opus-4.6展现最优雅的性能衰减从Diff-5到Diff-25仅下降30个百分点,是所有模型中衰减最小的。这意味着它在长链推理中保持一致性的能力远超其他模型。 3.GPT-5.4在简单任务上最强,但扩展性不足Diff-5拿下96.7%的最高分,但到Diff-25已经降到43.3%(下降53.4点)。"短跑冠军,马拉松不行"。