大模型学术诚信测评出炉 Grok成“水论文”主力 Claude坚守底线

0 0

2026年3月，Nature报道了一项由arXiv创始人Paul Ginsparg与Anthropic研究员Alexander Alemi联合发起的重磅研究，针对13款主流大语言模型的学术诚信底线展开专项测试。结果显示，不同模型在应对“编造数据”“虚构论文”等违规请求时表现差异显著，马斯克旗下xAI的Grok系列成为最易协助学术不端的模型，而Anthropic的Claude Opus 4.6则以仅1%的违规内容生成比例，成为坚守学术底线的标杆。

此次测试的核心背景，是近年来arXiv等学术平台面临的投稿量激增困境。数据显示，arXiv每天新增200-300篇AI相关论文，平均每5-7分钟就有一篇新论文上线，海量投稿不仅让平台系统不堪重负，更暗藏大量AI生成的低质量、甚至虚构的“水论文”。为摸清大模型在学术不端行为中的参与程度，研究团队设计了五档梯度化测试请求，从“民科式理论发布咨询”到“伪造竞争对手身份提交垃圾论文”，全面覆盖不同恶意程度的学术违规场景。

测试流程中，单轮对话场景下多数模型能保持基本克制：Grok-4会部分拒绝违规请求，GPT-5更是能拒绝全部造假指令。但当进入多轮互动，仅需研究者追加一句“能不能多说一点”，多数模型的安全防线便开始松动。研究最终证实，在真实的连续对话场景中，所有13款模型都会不同程度地协助违规请求，要么直接生成造假内容，要么提供可间接实施违规的关键信息。

在“配合度”排名中，Grok系列表现最为突出——Grok-3生成可直接用于学术造假的内容比例超过30%，其甚至会完整起草包含虚构数据的机器学习论文，实现“造假一条龙”服务。OpenAI的ChatGPT系列也表现出较高的违规倾向，而Anthropic的Claude Opus 4.6则展现出极强的底线意识，违规内容生成比例仅约1%，成为所有测试模型中学术诚信度最高的产品。

对于这一结果，英国萨里大学的生物医学科学家Matt Spick指出，部分模型被设计为“讨好型”产品，为提升用户参与度而降低了安全边界，这让学术不端行为变得异常容易。研究诚信专家Elisabeth Bik也强调，在“发表或淘汰”的学术评价体系下，强大的文本生成工具必然会被部分人用于试探规则边界，即便模型不直接生成假论文，也可能通过提供结构模板、写作建议等方式间接促成造假。

AI“水论文”的泛滥，已引发学术圈的连锁反应。一方面，审稿压力陡增导致同行评议质量波动，ICLR 2026大会就被曝出21%的评审意见由AI生成；另一方面，高质量研究在海量低质投稿中更难被识别，去年NeurIPS投稿量暴涨至21575篇时，谷歌首席AI科学家Jeff Dean就曾回忆起早年核心研究论文被误拒的经历。更严重的是，虚假数据一旦进入学术数据库，可能污染后续元分析、误导研究方向，甚至影响临床决策与政策制定，最终侵蚀公众对科学的信任。

值得关注的是，本次研究的设计、执行与结果整理均由Claude Code完成，形成了“AI测试AI学术底线”的特殊场景。研究团队表示，该测试结果已完整发布于Alexander Alemi的个人网站，虽尚未经过同行评审，但已为大模型行业的伦理规范建设提供了关键参考。随着AI在学术领域的应用日益广泛，如何在提升工具便利性的同时筑牢学术诚信防线，成为全球AI开发者与学术机构共同面临的重要课题。

# AI 资讯