首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • AI密室逃脱:16款顶级AI上演真实逃生,谁是最后赢家?

    感兴趣的开发者欢迎查看项目链接了解更多技术细节:GitHub:github.com/AGI-Eval-Official/Repo-of-AgentEscapeBench几个有趣的结论1.性能分化随难度急剧放大在简单题目(Diff 2.Claude-Opus-4.6展现最优雅的性能衰减从Diff-5到Diff-25仅下降30个百分点,是所有模型中衰减最小的。这意味着它在长链推理中保持一致性的能力远超其他模型。 3.GPT-5.4在简单任务上最强,但扩展性不足Diff-5拿下96.7%的最高分,但到Diff-25已经降到43.3%(下降53.4点)。"短跑冠军,马拉松不行"。

    32910编辑于 2026-05-20
领券