恺明经典模型获时间检验奖 2025 年 11 月 27 日,人工智能领域顶会 NeurIPS(神经信息处理系统大会)正式公布 2025 年度奖项名单,4 篇论文斩获最佳论文奖(Best Paper)、3 篇获最佳论文提名(Best Paper Runner-up),其中 3 篇最佳论文由华人学者担任一作,阿里 Qwen 团队研发的门控注意力机制成果尤为亮眼;与此同时,任少卿、何恺明等团队 2015 年提出的 Faster R-CNN 目标检测框架,凭借十年来对计算机视觉领域的深远影响,荣获时间检验奖(Test of Time Paper Award)。
最佳论文:聚焦多领域突破,华人学者成中坚力量
本次 NeurIPS 2025 最佳论文覆盖大语言模型、强化学习、扩散模型等核心赛道,3 篇由华人学者主导的成果展现了中国在 AI 基础研究领域的强劲实力。
阿里 Qwen 团队与多所高校合作完成的《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》,是唯一来自企业团队的最佳论文。该研究针对大语言模型注意力机制的痛点,提出在缩放点积注意力(SDPA)后加入注意力头特定的 sigmoid 门控机制,通过对 15B 混合专家(MoE)模型和 1.7B 稠密模型在 3.5 万亿 token 数据集上的 30 种变体实验验证,实现了多重突破:不仅将模型训练稳定性大幅提升,容忍更大学习率,还有效缓解 “注意力沉陷” 问题 —— 基线模型中平均 46.7% 指向首个 token 的注意力占比,在新机制下降至 4.8%;同时在长上下文外推任务(如 RULER 基准)上实现超 10 分的性能增益,相关设计已应用于 Qwen3-Next 模型,代码与模型均已开源。
来自华盛顿大学 Liwei Jiang 团队的《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》,则揭露了大语言模型的 “同质化危机”。研究发现,当前主流大模型(无论开源 / 闭源、不同规模)在开放式生成任务中,存在显著的模型内重复与模型间同质性 —— 即便采用 min-p 等增强多样性的解码策略,超 60% 响应相似度仍超过 0.8。例如对 “写一个关于时间的隐喻” 的查询,25 个不同模型的 50 条响应仅形成 “时间是河流”“时间是织工” 两个主要聚类。团队还构建了含 26K 真实开放式查询的 INFINITY-CHAT 数据集,为评估模型多样性提供了首个系统资源,引发业界对 AI 创意同质化风险的关注。
普林斯顿大学 Kevin Wang 团队的《1000 Layer Networks for Self-Supervised RL》,打破了强化学习领域 “浅层架构更优” 的传统认知。研究将网络深度提升至 1024 层,结合自监督对比强化学习(CRL)算法与残差连接等技术,在移动、导航、机器人操作等任务中实现性能飞跃 —— 部分任务效率提升 2-50 倍,8 个任务超越 SAC、TD3+HER 等主流基线算法。更关键的是,当深度达到特定临界值(如 Ant Big Maze 的 8 层、Humanoid U-Maze 的 64 层)时,智能体将习得全新技能(如类人机器人翻墙、坐姿移动),且深度扩展比宽度扩展更具计算效率,为 RL 模型规模扩展提供新范式。
巴黎高等科学与研究学院团队的《Why Diffusion Models Don’t Memorize》,则从理论层面解答了扩散模型的泛化机制。研究识别出扩散模型训练的两个关键时间尺度:泛化时间(生成高质量样本的最短时间,与训练集大小无关)与记忆化时间(开始记忆数据的时间,随训练集大小线性增长),两者形成的 “泛化窗口” 随训练集扩大而拓宽。这一发现揭示了隐式动力学正则化的作用 —— 即便模型高度过参数化,只要在泛化窗口内停止训练,就能避免记忆化并高效泛化,为扩散模型的训练策略优化提供重要理论支撑。
时间检验奖:Faster R-CNN 十年深耕,重塑目标检测领域
此次获时间检验奖的 Faster R-CNN,是计算机视觉领域的 “里程碑式成果”。由任少卿、何恺明、Ross Girshick、孙剑团队于 2015 年提出的这一目标检测框架,核心创新在于引入 “区域提议网络(RPN)”,首次实现检测网络与提议网络的卷积特征共享,彻底解决传统目标检测中区域提议计算耗时的瓶颈。
RPN 作为全卷积网络,通过 3 种尺度、3 种长宽比的 “锚点” 机制,无需图像金字塔即可覆盖多形态目标,兼具平移不变性且参数规模更小;配合多任务损失函数(分类损失 + 回归损失)与 4 步交替训练策略,Faster R-CNN 实现了端到端的近实时检测 —— 使用 VGG-16 模型时在 GPU 上达 5fps 帧率,仅需 300 个提议区域即优于传统方法 2000 个提议的性能,提议计算耗时仅 10ms。
十年来,该框架不仅在 PASCAL VOC、MS COCO 等数据集上长期保持精度优势,更成为 3D 目标检测、实例分割等领域的技术基础,多个 ILSVRC、COCO 竞赛冠军方案均基于其改进。其特征共享、锚点机制等设计理念,至今仍深刻影响着计算机视觉算法的发展,充分体现了 “经得住时间考验” 的顶会成果价值。
行业意义:基础研究引领创新,垂直领域突破成趋势
从本次 NeurIPS 获奖成果来看,AI 领域正呈现 “基础理论深化 + 垂直场景突破” 的发展趋势。一方面,大语言模型的注意力机制优化、扩散模型的泛化原理等基础研究,为技术落地提供更坚实的理论支撑;另一方面,强化学习的深度扩展、目标检测的经典复用,展现出跨领域技术迁移与长期迭代的价值。
尤其值得关注的是,阿里 Qwen 团队的获奖,标志着中国企业在 AI 基础研究领域的竞争力持续提升,从 “技术应用” 向 “理论创新” 加速迈进。随着这些前沿成果的开源与落地,将进一步推动全球 AI 技术生态的发展,为大模型效率提升、计算机视觉创新等提供新的方向。