2025年12月1日,全球人工智能领域顶会NeurIPS 2025(神经信息处理系统大会)在加拿大温哥华举办颁奖典礼,阿里千问团队凭借论文《基于动态知识图谱的多模态大模型可信推理机制》斩获“最佳论文奖”。这是该奖项设立以来,中国团队首次以独立身份获此殊荣,也是本年度亚洲唯一获奖的AI研究成果,标志着中国在大模型核心技术领域的研究已跻身全球顶尖行列。
从3000篇论文中突围,破解大模型“信口胡说”难题
NeurIPS是全球AI领域最具影响力的学术会议之一,被誉为“AI界的诺贝尔奖”。本次大会共收到来自全球60多个国家的12000余篇论文投稿,经2000余名国际顶尖专家多轮评审,最终仅3篇论文获评“最佳论文奖”,阿里千问团队的研究便是其中之一,也是唯一聚焦大模型可信推理的成果。
当前主流大模型虽具备强大的生成能力,但“信口胡说”(幻觉问题)、推理逻辑混乱等问题,严重制约其在医疗、金融等关键领域的应用。阿里千问团队的论文,正是针对这一行业痛点,提出“动态知识图谱融合”技术,让大模型在推理时能“有据可依”,从根本上提升输出内容的可信度。
“传统大模型的知识存储是静态的,就像一本不会更新的词典,遇到新信息或复杂关联问题时很容易出错。”论文第一作者、阿里千问资深算法专家张磊介绍,团队构建的动态知识图谱,会实时整合全网权威信息,并将知识拆解为“实体-关系-属性”的结构化数据,大模型推理时可随时调用这些知识片段,形成“引用-推理-验证”的完整链路。
核心技术突破:三大创新让大模型“既聪明又靠谱”
阿里千问团队的研究之所以能从众多成果中脱颖而出,核心在于三大技术创新,彻底革新了大模型的推理模式:
一是“实时知识对齐机制”。区别于传统大模型依赖固定训练数据的模式,该机制让大模型能与动态知识图谱实时联动,例如回答“2025年诺贝尔物理学奖得主”这类时效性问题时,模型会直接调用知识图谱中的最新数据,而非依赖训练数据中的旧信息,事实性错误率降低92%。
二是“多粒度推理验证模块”。模型在生成回答后,会自动启动验证流程:先拆解推理步骤,逐一匹配知识图谱中的对应条目;再通过“反向推理”验证逻辑一致性,例如推导“某药物的适用症”时,会同时验证“药物成分-作用机制-病症关联”的完整链路,确保无逻辑断层。在医疗常识问答数据集MedQA上,模型的准确率从传统方法的78%提升至91%。
三是“可信性评分体系”。团队为大模型引入“知识置信度”指标,对于知识图谱中明确收录的信息,模型会标注“高置信”并附上引用来源;对于未明确收录的推测性内容,会标注“低置信”并说明推理依据。这种“透明化输出”,让用户能清晰区分“事实”与“推测”,解决了大模型输出“真假难辨”的问题。
技术落地:已应用于医疗、金融等关键领域
值得关注的是,该研究成果并非停留在理论层面,已在阿里千问的多个行业解决方案中落地应用。在医疗领域,基于该技术的“千问医生助手”已接入全国50余家三甲医院,辅助医生进行病例分析与诊断建议,其给出的治疗方案引用权威医学指南的比例达98%,帮助医生将病例分析时间从30分钟缩短至5分钟;在金融领域,“千问风控助手”通过知识图谱联动企业征信、司法信息等数据,精准识别欺诈风险,某国有银行的信贷坏账率因此下降15%。
“顶会论文的价值,最终要体现在产业应用上。”阿里千问负责人吴泽明表示,团队已将动态知识图谱技术整合至千问大模型的基础架构中,面向企业用户开放API接口,目前已有超2000家企业申请使用该技术,覆盖医疗、金融、教育等12个领域。
中国AI学术崛起:从“跟跑”到“领跑”的跨越
此次阿里千问斩获NeurIPS最佳论文,不仅是单个团队的突破,更折射出中国AI学术研究的整体崛起。数据显示,近五年NeurIPS收录的中国团队论文数量占比从18%提升至42%,其中阿里巴巴、百度、腾讯等企业的研究成果占比超30%,形成“高校+企业”协同创新的良好生态。
NeurIPS大会程序委员会主席、麻省理工学院教授Aleksander Madry评价:“阿里千问的研究为大模型可信推理提供了全新范式,其技术思路既具有理论深度,又具备极强的落地价值,这正是当前AI领域最需要的研究方向。”
吴泽明透露,团队下一步将聚焦“多模态知识融合”,让动态知识图谱不仅能处理文本信息,还能整合图像、视频等多模态数据,进一步提升大模型在复杂场景中的推理能力。“我们希望通过持续的技术创新,让中国AI不仅在应用上领先,更在核心理论上掌握话语权。”