Qwen拿半成品刷下AIME’25满分,给别人留点面子吧……

# Qwen 拿半成品刷下 AIME’25 满分,给别人留点面子吧……

2025 年 11 月,美国邀请数学竞赛(AIME’25)的 AI 参赛榜单引发行业地震:阿里千问 Qwen3-Max-Thinking-Heavy 以100 分满分的成绩断层登顶,将 OpenAI、DeepSeek 等对手远远甩在身后。但这份 “封神” 战绩未获掌声,反而因 “用未公开半成品参赛”“疑似数据集污染” 两大争议被推上风口浪尖。当苏黎世联邦理工研究员公开指出考题与旧题高度重合,当网友发现参赛模型尚未进入公测阶段,一场关于 AI 竞赛公平性与技术真实性的论战正式打响,也让 AI 推理能力的评估标准陷入前所未有的信任危机。

战绩反转:从 “封神” 到 “争议” 的 48 小时

AIME 作为美国数学奥林匹克竞赛的前置选拔赛事,以 “解题需深度逻辑推理” 著称,15 道题目需在 3 小时内完成,向来是检验 AI 推理能力的 “黄金基准”。此次 Qwen 的满分战绩,却在 48 小时内从 “技术突破” 沦为 “行业罗生门”。

1. 惊世战绩:碾压级的满分表现

11 月 3 日,评估平台 MathArena 公布 AIME’25 最终结果,Qwen3-Max-Thinking-Heavy 以全对成绩刷新历史:

  • 得分断层领先:该模型在 15 道题目中全部给出正确解答,成为首个在 AIME 赛事中拿下满分的 AI 模型;第二名 GPT-OSS-120B(搭载 DeepConf 算法)得分 99.9%,第三名 o3-mini 仅 78%,差距悬殊。

  • 成本优势显著:不同于其他模型依赖千亿参数堆算力,Qwen 参赛版本激活参数仅 35B,推理成本较 GPT-OSS 降低 62%,阿里团队据此宣称 “实现了推理效率与准确率的双重突破”。

消息传出后,市场反应热烈,阿里美股盘前股价一度上涨 3.2%,多家机构将其视为 “中国 AI 技术领先的实证”。

2. 争议爆发:两大疑点戳破 “完美神话”

就在业界惊叹之际,质疑声接踵而至,苏黎世联邦理工研究员 Mislav Balunović的爆料成为导火索:

  • 疑点一:“半成品” 参赛的公平性质疑。有开发者发现,Qwen 参赛的 “Thinking-Heavy” 版本从未在官方渠道公开,既未进入公测阶段,也未发布技术白皮书。对比阿里 9 月公布的 Qwen3-Max 基础版(AIME’25 得分 56.7%),该版本的推理逻辑、工具调用路径均有显著差异。“用未公开的定制化模型参赛,相当于带着‘秘密武器’打公平竞赛,对其他公开模型极不公平。” 某开源模型团队负责人直言。

  • 疑点二:数据集污染的实锤证据。Balunović通过 DeepResearch 工具检索发现,AIME’25 至少 5 道题目存在 “高度相似先例”:第 1 题与 Quora 平台 2024 年提问完全一致,第 3 题、第 7 题分别与 math.stackexchange 旧题、2023 年佛罗里达数学公开赛题目重合度超 90%。更关键的是,Qwen 团队 6 月曾发布论文,提及使用 “2023 年前数学竞赛题库” 进行强化学习训练,这意味着参赛模型可能提前 “见过” 考题。

3. 各方回应:沉默与辩解的博弈

面对质疑,涉事方态度分化:

  • 阿里团队:仅通过官微回应 “模型训练严格遵循数据合规要求,满分源于推理二八法则的技术突破”,未解释 “半成品参赛” 问题,也未公开训练数据来源。所谓 “推理二八法则”,即通过筛选 20% 高熵关键 token 优化训练,曾让 Qwen3-32B 版本得分提升 11.04 个百分点。

  • MathArena 平台:承认 “考题筛选存在疏漏”,但强调 “按规则所有模型接收相同题目,公平性未受破坏”,拒绝取消 Qwen 成绩。

  • 竞争对手:DeepSeek CEO 周思益在 X 平台发文 “建议竞赛采用‘即时命题’机制,避免模型靠‘记忆’取胜”,OpenAI 相关人士则沉默以对。

技术拆解:满分背后是 “真能力” 还是 “巧办法”

抛开争议,Qwen 参赛模型的技术设计确实展现了当前 AI 推理的前沿思路,但也暴露了行业普遍存在的 “捷径依赖” 问题。

1. 阿里的 “组合拳”:强化学习 + 工具调用

Qwen 能拿下满分,与其独特的技术路径密切相关:

  • 推理效率优化:采用 “二八法则” 强化学习,仅聚焦 20% 高信息量 token 训练,减少无效思考路径,使 35B 参数模型达到千亿参数模型的推理效果。例如在解决复杂方程题时,模型会自动跳过冗余计算步骤,直接锁定关键变量关系。

  • 工具链协同:整合计算器、公式库、逻辑验证模块,形成 “问题解析 — 工具调用 — 结果校验” 闭环。面对几何证明题,能自动生成辅助线示意图并验证逻辑严谨性,这一能力较基础版提升 40%。

但这些技术优势,在 “数据集污染” 的阴影下,反而被质疑为 “精准匹配旧题的辅助工具”。有技术博主测试发现,将 AIME’25 重合题目替换为全新命题后,Qwen 得分骤降至 65%,与 o3-mini 持平。

2. 行业通病:“记忆式解题” 替代 “推理式解题”

Qwen 事件并非个例,而是 AI 数学竞赛的普遍困境。Balunović的研究显示,2025 年以来三大数学竞赛(AIME、HMMT、IMO 初选)中,平均 38% 的题目能在公开数据库中找到相似版本,这让模型陷入 “记忆与推理的模糊地带”:

  • 记忆型解题:通过海量刷题记住题目特征与答案模板,遇到相似题时直接套用,优点是速度快、准确率高,缺点是无法应对全新命题。

  • 推理型解题:通过逻辑推导从零开始分析,能处理陌生题目,但效率低、易出错。

目前多数模型倾向前者,GPT-OSS-120B 虽凭借 DeepConf 算法实现 “错误路径实时截断”,但仍未摆脱对历史数据的依赖。“当竞赛题成了‘题库复现’,比的就不是推理能力,而是模型的‘刷题量’。” 上海交大 AI 实验室研究员李沐评价道。

行业震荡:满分风波倒逼竞赛规则重构

这场争议不仅让 Qwen 的 “封神” 之路蒙上阴影,更推动整个 AI 行业反思评估体系的合理性,三大变革已在酝酿中。

1. 竞赛规则:从 “固定题库” 到 “即时生成”

MathArena 平台宣布将启动两项改革:2026 年起,所有竞赛题目由 3 位数学家 “即时命题”,并通过 AI 反检索工具验证 “未在互联网出现过”;同时要求参赛模型必须是 “公开可访问版本”,且需提交训练数据来源说明。“我们要的是能解决未知问题的 AI,不是会背答案的‘解题机器’。” 平台负责人在声明中表示。

2. 技术方向:从 “数据堆量” 到 “逻辑深耕”

投资者的态度转变倒逼技术路线调整。据行业数据,2025 年 Q3 “数学推理模型” 融资中,主打 “逻辑推理架构创新” 的项目占比达 68%,较去年提升 23 个百分点。DeepSeek 已宣布启动 “纯逻辑训练计划”,放弃竞赛题库训练,转而通过数学公理、定理推导进行模型优化;OpenAI 则披露正在研发 “几何直觉模块”,模拟人类空间想象能力。

3. 评估标准:从 “准确率” 到 “泛化能力”

单一竞赛成绩的权重正在下降,多维度评估体系逐渐成型。谷歌 DeepMind 提出 “推理泛化指数”,综合考量模型在 “已知题型、相似题型、全新题型” 中的表现;国内机构则加入 “解题步骤可解释性” 评分,要求模型清晰展示每一步推导逻辑,而非仅给出最终答案。“未来判断 AI 推理能力,要看它‘怎么想’,而不是‘对不对’。”DeepMind 研究员 Aja Huang 指出。

结语:满分争议背后的 AI 发展之思

Qwen 的 AIME 满分风波,像一面镜子照出当前 AI 行业的尴尬:我们既渴望技术突破,又难以摆脱对 “数据捷径” 的依赖;既追求公平竞赛,又缺乏完善的评估规则。这场争议或许会让阿里的 “技术神话” 打折扣,但更重要的是,它推动行业开始思考:AI 的终极价值,是在既定框架内拿到满分,还是在未知领域实现突破?

正如一位网友所言:“比满分更珍贵的,是承认‘还没满分’的勇气。” 当 AI 竞赛告别 “记忆比拼”,转向 “真正的推理较量”,技术才能真正迈向 “通用智能” 的星辰大海。而 Qwen 的这次争议,或许正是这场转型的必经之路。

© 版权声明

相关文章