学术圈大地震！顶会21%审稿竟是AI代写？当“同行评审”变成“机器互搏”

沈宥

发布于 2026-03-31 19:15:30

1990

导读：你熬夜三个月打磨的论文，可能只用了审稿人3分钟——他把你的文章扔给ChatGPT，然后复制粘贴了一段由AI生成的“正确的废话”。这不是科幻电影，而是刚刚发生在全球最顶级AI会议 ICLR 2026 上的真实荒诞剧。

时间回到2025年底，正值 ICLR 2026（国际学习表征会议）的审稿高峰期。作为与NeurIPS、ICML并列的三大顶会之一，ICLR一直是机器学习领域的“奥林匹克”。

然而，今年气氛有些诡异。

卡内基梅隆大学（CMU）的著名AI研究员 Graham Neubig 在收到几份审稿意见后，感到了一种难以名状的“违和感”。

“这不像是一个人类专家写的，倒像是大模型在‘一本正经地胡说八道’。”

为了验证直觉，Graham Neubig在社交媒体上发出了一个50美元的悬赏令：“谁能系统性地检测出ICLR论文和审稿中到底夹杂了多少AI文本？”

接榜的是专门从事AI文本检测的 Pangram Labs。他们利用自研工具 EditLens，对ICLR 2026公开的 75,800条 审稿意见进行了地毯式扫描。

结果令人咋舌：

这意味着，每5份审稿意见中，就有1份是AI“全自动”完成的。 曾经神圣的“同行评审”（Peer Review），正在演变成一场“机器审机器”的荒诞游戏。

(数据来源：Pangram Labs / Graham Neubig)

很多人好奇：既然都是大模型生成的，检测工具凭什么能分辨？难道也是“用魔法打败魔法”？

Pangram Labs 和其他检测机构主要利用了以下几个维度的统计指纹：

人类写作通常具有“突发性”：句子长短不一，用词有时精准有时随意，情感波动明显。而早期的LLM生成的文本往往过于平滑、结构刻板、词汇分布过于均匀。

在此次事件中，许多AI审稿意见出现了典型的事实性幻觉（如捏造数据、引用不存在的公式）。检测模型经过训练，能识别出这种“看似合理但经不起推敲”的逻辑断层模式。

除了文本本身，时间戳也是铁证。

对比同一审稿人往年的评审风格。如果一个常年以“言辞犀利、直击要害”著称的审稿人，突然变得“温文尔雅、长篇大论但毫无重点”，算法会立即触发警报。

这场风波不仅仅是几个审稿人偷懒的问题，它击穿了学术界的信任基石。

📉 劣币驱逐良币 如果21%的审稿是AI完成的，那么真正用心审阅的专家负担将成倍增加。更可怕的是，AI倾向于给出“中庸”的评价，这可能导致极具创新性但存在瑕疵的论文被埋没，而平庸但格式完美的“八股文”得以通过。

🤖 “闭环”陷阱 现在的局面是：作者用AI写论文 -> 审稿人用AI审论文 -> 编辑用AI做决定。在这个闭环中，人类的角色被无限压缩。如果训练数据本身包含偏见或错误，这个闭环将不断放大这些错误，导致学术研究陷入“内卷式停滞”。

⚖️ 责任归属的真空 当AI审稿人误拒了一篇诺奖级别的论文，谁该负责？

既然禁止很难（毕竟无法24小时监控审稿人的屏幕），我们是否应该彻底禁止AI进入审稿领域？

答案可能是否定的。堵不如疏，关键在于“定位”。

初筛与格式检查：让AI去检查参考文献格式、语言语法、是否存在明显的逻辑矛盾，效率远超人类。
查重升级：传统查重只能比对文字，AI可以比对思想内核，识别改写后的剽窃。
辅助人类：审稿人可以使用AI总结长文、提取核心公式，但最终的判断（Accept/Reject）必须由人类做出，并附上人类独有的洞察（Insight）。