打破海外垄断!DeepSeek开源IMO级数学大模型,解题能力比肩金牌选手

2025年11月29日,国内AI企业深度求索(DeepSeek)宣布开源旗下数学大模型DeepSeek-Math-MO,该模型在国际数学奥林匹克竞赛(IMO)模拟测试中取得32分的优异成绩(满分42分),达到IMO金牌选手水平,成为全球首个在IMO测试中突破30分的开源数学大模型。这一突破不仅打破了谷歌、OpenAI在高端数学推理大模型领域的垄断,更为科研机构与开发者提供了可自由使用的顶尖数学AI工具。

IMO测试突破30分,性能碾压同类开源模型

IMO作为全球含金量最高的中学生数学竞赛,其题目以逻辑严谨、思维抽象著称,对大模型的推理能力、符号理解与复杂问题拆解能力提出极高要求。此前,谷歌Gemini 3 Pro与OpenAI GPT-5.1虽能达到IMO金牌水平,但均未开源,普通开发者难以触及核心技术;而开源领域的数学模型,如Meta Math Llama 3、Anthropic Claude 3 Open等,IMO测试分数普遍在20分以下,与金牌线(31分)存在显著差距。

DeepSeek-Math-MO的出现填补了这一空白。测试数据显示,该模型在2020-2024年IMO真题中,平均得分32分,其中代数、组合数学题型得分率超85%,几何题型得分率达72%,仅在数论部分的高难度题目上表现稍弱。更值得关注的是,模型不仅能给出正确答案,还能输出与人类解题思路一致的详细步骤,甚至会标注关键解题技巧,如“构造辅助函数”“反证法应用”等,解题过程的可读性远超同类模型。

“我们构建了包含200万道数学题的专项数据集,涵盖IMO真题、各国数学竞赛试题及高校数学系习题,并引入‘多步推理监督’训练方法,让模型学会像人类数学家一样拆解问题。”DeepSeek技术负责人张博介绍,团队还针对数学符号、公式推导进行了专项优化,模型对积分、微分方程、群论等专业数学表达的理解准确率达99.2%。

技术创新:三大核心优势筑牢性能壁垒

DeepSeek-Math-MO的性能突破,源于三大技术创新:

一是“分层推理架构”。模型采用“问题分析-子问题拆解-步骤推导-答案验证”的四阶段推理流程,在处理复杂题目时,会先识别题目类型与核心考点,将大问题拆解为多个可解决的子问题,再逐步推导,最后通过内置的验证模块检查逻辑漏洞,避免“跳跃式解题”与计算错误。

二是“符号-文本双模态融合”。针对数学题中“自然语言描述+符号表达式”的混合输入场景,模型专门设计了符号编码器,可将公式、图表等转化为结构化特征,与文本信息深度融合,解决了传统模型“符号理解混乱”“公式推导出错”的痛点。例如,在处理含复杂积分公式的物理应用题型时,模型能精准识别积分上下限与变量关系,推导过程无符号错误。

三是“领域知识增强预训练”。团队在通用大模型基础上,额外进行了1000亿Token的数学领域预训练,数据涵盖从小学奥数到大学高等数学、甚至部分数学科研论文,让模型构建起完整的数学知识体系,能够应对跨领域的综合题型,如“用组合数学方法解决概率问题”“结合数论知识证明代数恒等式”等。

全版本开源,赋能科研与教育场景

此次DeepSeek不仅开源了DeepSeek-Math-MO的模型权重,还同步开放了训练数据集、推理代码及优化工具包,开发者可在GitHub与Hugging Face平台免费获取。模型提供7B、14B、70B三个参数版本,其中7B版本可在普通消费级GPU上运行,14B版本适配云端服务器,70B版本则面向企业级高精度需求。

开源后,模型已迅速引发科研与教育领域的关注。清华大学数学系教授李娟表示,团队已基于该模型开发“数学科研辅助系统”,用于定理推导与论文公式校验,“过去需要一周时间验证的引理,现在模型能在2小时内完成初步推导,大幅提升科研效率”;国内在线教育平台猿辅导则计划将模型集成至智能题库,为学生提供个性化解题指导,针对不同知识点薄弱的学生生成定制化习题与解析。

DeepSeek还宣布启动“数学AI生态计划”,将投入1000万元扶持基于该模型的二次开发项目,重点支持教育、科研、工程计算等领域的应用创新。目前,已有中科院数学与系统科学研究院、上海交通大学数学系等20余家科研机构与企业加入该计划。

打破垄断,推动国产数学AI走向全球

在此之前,高端数学推理大模型的技术话语权长期由谷歌、OpenAI等海外企业掌握,其闭源策略不仅限制了技术普及,也让国内相关领域的发展面临“卡脖子”风险。DeepSeek-Math-MO的开源,不仅为国内开发者提供了顶尖的技术底座,更向全球展示了国产大模型在高端推理领域的实力。

行业分析师指出,数学推理能力是大模型走向通用人工智能的关键一步,该能力的突破将带动AI在更多专业领域的应用,如工程计算、金融风控建模、量子物理研究等。“当数学大模型能自主完成复杂推导,AI将从‘辅助工具’升级为‘科研伙伴’,推动多个领域的创新效率提升。”

张博透露,团队下一步将聚焦数论题型的性能优化,目标是让模型IMO得分突破35分,同时计划拓展模型的应用场景,开发面向工程、物理的专用数学推理版本。“我们希望通过开源,汇聚全球开发者的力量,让数学AI技术更快地服务于科研创新与教育公平。”

目前,DeepSeek-Math-MO的7B与14B版本已开放下载,70B版本将于12月中旬上线。对于科研机构与教育非盈利组织,DeepSeek还提供免费的算力支持,进一步降低技术使用门槛。这场由国产AI企业掀起的“数学大模型开源革命”,正悄然改变全球AI领域的技术格局。

© 版权声明

相关文章