11位顶尖数学家设局考AI 10道研究级难题引陶哲轩关注

AI 资讯5小时前发布 dennis
0

【量子位 2026年2月8日讯】当大模型在编码、创作领域屡创佳绩,其在纯数学研究领域的真实实力终于迎来硬核检验!11位来自斯坦福、哈佛、哥伦比亚等高校的顶尖数学家,在arXiv发布了一篇特殊的“无结果论文”——发起名为First Proof的全球AI挑战,抛出10道源自真实研究的数学难题,邀请全球AI在2月13日前给出严谨证明,以此界定“AI+数学”的能力边界。该实验一经发布便获菲尔兹奖得主陶哲轩转发力荐,引发学界与AI圈双重热议。

弃竞赛题选真难题 打造零污染评测基准

长期以来,AI数学能力评测多依赖竞赛题库,这类题目虽便于规模化测试,却与真实数学研究存在本质差异——真实科研中,问题往往缺乏精确定义,解法无固定模板,需在反复试探与修正中推进,且现有题库普遍存在数据污染风险,难以客观反映AI的真实水平。

为破解这一困境,11位数学家从自身当前研究中筛选出20道核心引理,再按“AI可理解表述、无公开答案、作者同意发布证明、每人仅贡献1道”四大标准,最终敲定10道终极考题,覆盖代数组合学、谱图论、代数拓扑、随机分析、辛几何等多个前沿分支。这些题目均是数学家未来发表成果的关键组成部分,从未在互联网、学术会议等任何渠道公开,从根源上杜绝了AI“偷看答案”的可能。

与现有评测基准相比,First Proof的设计更贴近真实研究场景:答案并非单一数值或固定步骤,而是完整的数学证明过程,需人类专家评分验证;允许AI无限制使用网络搜索等外部资源;问题公开但答案加密存储于专门网站,仅用于社区验证且不可重复使用,确保基准的唯一性与公正性。每道题的人类证明均控制在5页以内,既适配当前AI的技术限制,也保证了评测的可操作性。

GPT、Gemini先测翻车 单次提示难破多数难题

在向全球发起挑战前,数学家团队已率先用当前顶尖模型进行了首轮测试:邀请GPT 5.2 Pro与Gemini 3 Deepthink进行“一次性作答”,即不给模型反复修正的机会,检验其独立完成证明的能力。

实验结果显示,即便这两款公开可用的最佳AI系统,也难以解答多数问题。团队明确表示,First Proof仅聚焦数学研究的最后阶段——在问题表述与研究背景已清晰给定的前提下,测试AI能否走完“从命题到正确证明”的最后一公里,暂不评估AI提出研究问题、构建新理论框架的高阶能力。

不过数学家们也推测,若允许人类与AI进行反复对话、追问与引导,有望让AI给出更优答案。值得注意的是,为避免实验数据污染未来的模型训练,团队已关闭数据共享选项,同时知晓谷歌会保留数据3天、OpenAI会保留30天,全程采取多重措施确保答案私密性。

陶哲轩力荐 人机协作成终极共识

作为全球顶尖数学家,陶哲轩对这一实验高度关注并转发推荐。他在评价中指出,这些问题虽已被人类专家攻克,但技术门槛极高,非领域专家难以验证AI输出结果的真伪,即便是配备AI工具的其他领域专家,要解决其中相当一部分也极具挑战性,“不过意外惊喜并非不可能,截止期限前的实验进展值得密切关注”。

这一观点也契合陶哲轩长期以来的判断:AI不会取代数学家,人机协作才是未来趋势。此次First Proof实验的核心价值,并非给AI下“及格或不及格”的定论,而是首次用真实、未公开的研究级问题,系统探索AI在纯数学领域的能力边界——即便AI仅完整解出一道题,也将成为AI数学研究史上的重要节点。

未来将推第二套题库 拓展高阶能力评测

据团队透露,未来数月内将设计第二套问题集,进一步收紧实验变量:先与前沿AI系统开发方达成明确协议,让模型完成测试后再统一公开问题与答案,逐步将First Proof打造为可复用、可比较的研究级数学能力基准。

后续实验还将逐步“去人工化”,放宽对证明长度、表达形式的人为限制,引入更多数学分支的问题,覆盖更广泛的研究场景。长期来看,团队的目标不仅限于评估AI的“解题能力”,还将探索更高阶的评测维度,比如AI提出新问题、构建新理论框架的能力,为“AI+数学”的深度融合提供更全面的参考。

目前,10道难题已通过arXiv论文公开(论文链接:https://arxiv.org/abs/2602.05192),答案加密存储于https://1stproof.org/,将于2月13日正式公布。这场横跨AI与数学领域的跨界挑战,究竟能否诞生突破性成果?AI能否在纯数学研究中实现关键突破?值得全球学界与技术圈共同期待。

© 版权声明

相关文章