ICLR 2026评审惊现AI滥用:21%评审纯AI生成,学术诚信遇挑战

2025年11月30日,Pangram实验室发布的一份分析报告,让AI顶会ICLR(国际学习表征会议)陷入学术诚信争议——在ICLR 2026的75800条评审意见中,有15899条被判定为“完全由AI生成”,占比高达21%;同时,1%的投稿论文(199篇)也被检测出“几乎完全由AI撰写”。这一发现源于CMU研究员Graham Neubig的直觉怀疑,他因收到“AI味极重”的评审意见发起悬赏检测,最终揭开了学术圈“AI代写论文、AI代做评审”的恶性循环,引发行业对学术诚信与评审机制的深刻反思。

悬念揭开:从直觉怀疑到数据实锤

事件的起点颇具戏剧性。CMU AI研究员Graham Neubig在收到ICLR 2026的同行评审意见时,发现部分内容“异常冗长且充斥符号,要求的分析方式不符合AI/ML论文的标准统计逻辑”,这让他怀疑评审可能由AI生成。由于个人难以开展系统性检测,他在社交平台发起悬赏:向首位完成ICLR论文与评审AI检测的研究者提供50美元奖励,这一倡议很快吸引了Pangram实验室的响应——该实验室恰好专注于AI生成文本检测技术。

为确保检测准确性,Pangram团队首先攻克了数据处理难题。ICLR投稿论文多为PDF格式,包含大量公式、图表,普通解析工具易产生格式噪音,干扰文本分析。团队采用Mistral OCR模型将PDF转为Markdown,再统一提取纯文本,最大程度消除格式干扰。随后,针对“论文正文”与“评审意见”分别使用不同检测模型:检测论文时,用extended text classifier将文本分段判断AI生成概率;检测评审时,用自研的EditLens模型,不仅判断是否为AI生成,还细分“完全人工”“AI润色”“完全AI生成”等五个参与程度等级。

为验证模型可靠性,团队还以2022年前的ICLR、NeurIPS论文为对照——这些论文创作于AI写作工具普及前,检测结果显示其AI生成概率为0%,证明模型误判率极低。最终,在严格的检测流程下,“21%评审纯AI生成”的结论浮出水面,震惊学术圈。

数据背后:AI评审与论文的双重乱象

Pangram实验室的检测报告,还揭露了ICLR 2026学术生态的多重问题。在评审端,除21%纯AI生成的评审外,超过50%的评审涉及不同程度AI参与,且AI参与度越高,评审评分越宽松——完全AI生成的评审平均评分达4.5分,而纯人工评审平均评分仅4.15分。更值得警惕的是,AI生成的评审虽字数多(平均3800字,远超纯人工评审的950字),但信息密度低、建设性建议少,多为“车轱辘话”,例如反复要求作者“增加消融实验”“扩大测试集”,却未指出具体改进方向,与“长评审=高质量评审”的传统认知背道而驰。

在论文端,61%的投稿为纯人工撰写,但1%的论文(199篇)完全由AI生成,且AI内容占比越高,评审评分越低——AI内容占比90%-100%的论文,平均评分不足2分,远低于人工撰写论文的4分以上。这一数据表明,当前AI写作虽能快速生成文本,但在学术深度、创新点呈现上仍无法替代人类,却仍有研究者试图通过AI“走捷径”。

更严峻的是,ICLR已有明确规定:使用AI撰写论文或参与评审必须披露,且研究者需对内容科学性负责,纯AI生成评审可能违反保密原则与道德准则。但此次检测显示,大量AI生成内容未按要求披露,形成“不披露、难察觉”的灰色地带。

恶性循环:学术信任体系受冲击

Pangram实验室指出,ICLR当前的乱象已形成“AI循环”:一方面,部分研究者用AI代写论文,试图降低创作门槛;另一方面,评审者用AI代做评审,逃避深度分析责任。这种双向滥用不仅导致学术质量下滑,更侵蚀着学术共同体的信任基础。

对作者而言,面对AI生成的“空洞评审”,往往需花费大量时间解读却难获有效反馈。一位投稿者吐槽:“收到的评审长达4000字,却只反复说‘实验设计需优化’,没说具体哪里优化,这种评审对修改论文毫无帮助。”而对评审者而言,AI的便捷性可能让更多人放弃深度思考,形成“依赖AI→评审质量下降→作者信任流失”的恶性循环。

ICLR 2026高级项目主席、康奈尔大学副教授Bharath Hariharan坦言,这是ICLR首次大规模遭遇AI滥用问题,目前已启动自动化工具筛查违规内容。但业内专家担忧,若不建立更严格的审核机制,AI可能彻底改变学术评审的本质——芝加哥大学经济学家Alex Imas提出灵魂拷问:“若我们接受AI主导评审,何必还要人类学者参与?若仍需人类判断,就必须严肃制裁纯AI生成内容。”

如何破局:识别AI评审与重建信任

为帮助研究者识别AI生成的评审,Pangram实验室总结了典型特征:标题多为“粗体标签+冒号”结构(如“Strengths: Clear problem formulation:”);内容聚焦表面问题,缺乏深度分析;常重复要求“增加实验”“扩大数据”,却无具体改进建议;语言模板化,充斥“听君一席话,如听一席话”的冗余表述。

从行业层面看,破局需从“技术检测+规则强化”双管齐下。ICLR已表示将升级审核机制,对未披露的AI生成内容采取拒稿、通报等措施;部分高校也开始在学术规范课程中加入“AI使用披露”模块,引导研究者合规使用AI工具。Pangram实验室则开源了检测工具(参考链接:https://www.pangram.com/blog/pangram-predicts-21-of-iclr-reviews-are-ai-generated),供会议组织者与研究者参考

更核心的是重建学术共同体的责任意识。正如AI研究者谢赛宁(Saining Xie)所言:“学术社区已十分脆弱,善待它、维护它的诚信,是每个研究者的责任。”毕竟,学术评审的核心价值在于人类智慧的碰撞与互助,若被AI的“便捷性”取代,学术创新的根基也将动摇。

© 版权声明

相关文章