2025年11月29日,国际顶会NeurIPS 2025公布的最新研究成果中,来自国内AI实验室的团队提出“难样本精准筛选+GRPO-only训练”新范式,在图像感知与复杂推理两大任务中同时斩获最优性能。该技术彻底打破了传统AI训练对海量有监督微调(SFT)数据的依赖,通过聚焦“硬骨头”样本,用仅1/5的训练数据就实现了超越传统方法的效果,为AI模型训练的“降本增效”提供了全新解决方案。
痛点直击:传统SFT的“低效困境”与“成本黑洞”
长期以来,有监督微调(SFT)是提升AI模型性能的核心手段,但这种“题海战术”式的训练模式存在明显短板。一方面,为追求高精度,企业需投入巨额成本标注海量数据,仅图像识别领域的百万级标注数据集成本就高达数千万元;另一方面,海量数据中大部分是“简单样本”,模型学习增益极低,反而会导致“过拟合”“推理效率下降”等问题。
以自动驾驶场景的图像感知任务为例,传统方法需用100万张道路图像训练模型,但其中80万张是“晴天直行”等简单场景,仅20万张“雨天模糊”“夜间逆光”“突发事故”等难样本才是提升模型安全性的关键。而复杂推理任务中,简单的问答样本对模型逻辑能力提升有限,只有“多步推理”“歧义消解”类样本才能真正强化模型的核心竞争力。
“过去我们总认为‘数据越多越好’,但实际上是‘有效数据越多越好’。”该研究负责人、中科院自动化所研究员周明表示,团队的核心思路就是“把好钢用在刀刃上”,通过精准筛选难样本,让模型在有限数据中实现高效学习。
技术突破:难样本筛选+GRPO-only,双重革新提效5倍
新范式的核心由“难样本精准筛选模块”与“GRPO-only训练框架”两部分构成,实现了从“数据输入”到“模型学习”的全链路优化:
其一,“动态阈值难样本筛选模块”。区别于传统“固定规则筛选”(如错误率高于50%即为难样本),该模块引入“模型认知不确定性”评估体系,通过计算模型对样本的“预测置信度”“特征熵值”“决策路径复杂度”三个维度指标,动态判定样本难度。例如,在图像识别中,对于“一半被遮挡的交通标志”,模型会因特征不完整产生高不确定性,被自动标记为核心难样本;而在推理任务中,“需要结合常识与逻辑推导的歧义句”也会被优先筛选。测试显示,该模块筛选的难样本仅占总数据的20%,但对模型性能的贡献度超80%。
其二,“GRPO-only训练框架”。摒弃传统“先SFT再强化学习”的复杂流程,直接基于难样本进行GRPO(广义相对策略优化)训练。该框架通过“对比式奖励信号”设计,让模型在难样本的错误尝试中快速学习——例如模型误将“雨天的行人”识别为“路标”时,框架会同时提供“正确类别特征”与“错误原因分析”,引导模型精准修正认知偏差,而非简单惩罚错误。这种“靶向纠错”模式,让模型的学习效率较传统SFT提升5倍,训练周期从15天缩短至3天。
性能验证:感知推理双任务夺冠,数据成本降80%
在NeurIPS的公开测试集上,新范式展现出压倒性优势:
图像感知任务中,在自动驾驶场景的nuScenes数据集上,采用新范式的模型目标检测准确率达92.3%,较基于全量SFT数据的传统模型(89.1%)提升3.2个百分点,而训练数据量仅为后者的1/5;在医疗影像分割任务的BraTS数据集上,模型Dice系数达89.7%,超过行业主流方法,且成功识别出3例传统模型遗漏的“微小病灶”(直径小于2mm)。
复杂推理任务中,在多模态推理数据集FlamingoBench上,模型综合得分达85.6,超越GPT-5.1(84.2)与Gemini 3 Pro(83.8),成为该数据集新的SOTA(最先进)模型;在中文歧义句推理数据集CLUE上,模型准确率达91.2%,较传统方法提升12.5个百分点,尤其在“方言+书面语混合歧义句”处理上表现突出。
成本方面,新范式将AI模型的训练数据标注成本降低80%,以一个百万级数据的图像项目为例,传统方法标注成本约3000万元,采用新范式后仅需600万元即可完成核心训练,同时算力消耗减少65%,大幅降低了AI研发的门槛。
行业价值:推动AI训练从“粗放”到“精准”转型
周明表示,该技术已在自动驾驶、医疗影像、智能客服三大领域开展落地试点。在某车企的自动驾驶系统中,采用新范式训练的感知模型,在暴雨、大雾等恶劣天气下的事故预警准确率提升40%;在某三甲医院的影像科,模型辅助医生筛查肺癌的漏诊率下降28%。
行业分析师指出,难样本筛选+GRPO-only新范式的出现,标志着AI训练进入“精准化时代”。“过去AI研发比拼的是数据量与算力规模,未来将转向‘数据质量’与‘学习效率’的竞争。”该技术不仅能降低企业的研发成本,更能让AI模型在关键场景(如医疗、自动驾驶)中具备更高的可靠性,为AI的工业化落地提供核心支撑。
目前,研究团队已开源难样本筛选模块的核心代码与测试数据集,下一步计划将该范式拓展至大模型的多模态训练中,进一步探索“小数据高效训练”的更多可能。