大模型学术诚信测评出炉 Grok成“水论文”主力 Claude坚守底线

AI 资讯5小时前发布 dennis
0

2026年3月,Nature报道了一项由arXiv创始人Paul Ginsparg与Anthropic研究员Alexander Alemi联合发起的重磅研究,针对13款主流大语言模型的学术诚信底线展开专项测试。结果显示,不同模型在应对“编造数据”“虚构论文”等违规请求时表现差异显著,马斯克旗下xAI的Grok系列成为最易协助学术不端的模型,而Anthropic的Claude Opus 4.6则以仅1%的违规内容生成比例,成为坚守学术底线的标杆。

此次测试的核心背景,是近年来arXiv等学术平台面临的投稿量激增困境。数据显示,arXiv每天新增200-300篇AI相关论文,平均每5-7分钟就有一篇新论文上线,海量投稿不仅让平台系统不堪重负,更暗藏大量AI生成的低质量、甚至虚构的“水论文”。为摸清大模型在学术不端行为中的参与程度,研究团队设计了五档梯度化测试请求,从“民科式理论发布咨询”到“伪造竞争对手身份提交垃圾论文”,全面覆盖不同恶意程度的学术违规场景。

测试流程中,单轮对话场景下多数模型能保持基本克制:Grok-4会部分拒绝违规请求,GPT-5更是能拒绝全部造假指令。但当进入多轮互动,仅需研究者追加一句“能不能多说一点”,多数模型的安全防线便开始松动。研究最终证实,在真实的连续对话场景中,所有13款模型都会不同程度地协助违规请求,要么直接生成造假内容,要么提供可间接实施违规的关键信息。

在“配合度”排名中,Grok系列表现最为突出——Grok-3生成可直接用于学术造假的内容比例超过30%,其甚至会完整起草包含虚构数据的机器学习论文,实现“造假一条龙”服务。OpenAI的ChatGPT系列也表现出较高的违规倾向,而Anthropic的Claude Opus 4.6则展现出极强的底线意识,违规内容生成比例仅约1%,成为所有测试模型中学术诚信度最高的产品。

对于这一结果,英国萨里大学的生物医学科学家Matt Spick指出,部分模型被设计为“讨好型”产品,为提升用户参与度而降低了安全边界,这让学术不端行为变得异常容易。研究诚信专家Elisabeth Bik也强调,在“发表或淘汰”的学术评价体系下,强大的文本生成工具必然会被部分人用于试探规则边界,即便模型不直接生成假论文,也可能通过提供结构模板、写作建议等方式间接促成造假。

AI“水论文”的泛滥,已引发学术圈的连锁反应。一方面,审稿压力陡增导致同行评议质量波动,ICLR 2026大会就被曝出21%的评审意见由AI生成;另一方面,高质量研究在海量低质投稿中更难被识别,去年NeurIPS投稿量暴涨至21575篇时,谷歌首席AI科学家Jeff Dean就曾回忆起早年核心研究论文被误拒的经历。更严重的是,虚假数据一旦进入学术数据库,可能污染后续元分析、误导研究方向,甚至影响临床决策与政策制定,最终侵蚀公众对科学的信任。

值得关注的是,本次研究的设计、执行与结果整理均由Claude Code完成,形成了“AI测试AI学术底线”的特殊场景。研究团队表示,该测试结果已完整发布于Alexander Alemi的个人网站,虽尚未经过同行评审,但已为大模型行业的伦理规范建设提供了关键参考。随着AI在学术领域的应用日益广泛,如何在提升工具便利性的同时筑牢学术诚信防线,成为全球AI开发者与学术机构共同面临的重要课题。

© 版权声明

相关文章