最严苛数学能力测试:AI不如人类王方
人工智能(AI)迎来了迄今最严苛的数学能力测试。测试结果于6月10日揭晓——参赛的AI模型的解题水平仍不及顶尖数学家。
据报道,这项测试隶属于“首轮求证”项目,旨在评估AI解决复杂数学难题的能力。研究人员向4款AI系统提出10道科研级数学难题,再由相关数学领域的匿名专家评审团对作答结果进行打分。
这次测试首次同时满足三大核心标准:题目均为前沿科研级数学问题、所有题目从未出现在模型训练数据中、由专业数学家进行正式评阅。
测试的一大创新在于,所有题目从未出现在任何公开文献或互联网平台上,从根源上避免AI直接复述训练阶段学到的现有内容。10名来自不同数学细分领域的研究人员,各自拿出一道本人研究过程中已解答但尚未公开发表的原创题目。
图片来源:vitacopS
“首轮求证”项目曾在2月开展过一轮预测试,但测试结果并未得到项目组官方核验,也无法确认AI是否得到过人类协助。美国卡内基·梅隆大学的Jeremy Avigad评价道:“主办方显然经过了周密考量,本次测试的管控更严格、流程也更系统化。”
测试还规定,参赛模型必须为对外公开版本。因此美国谷歌公司专为解数学题打造的Aletheia无缘参赛。大型科技企业中仅有OpenAI携GPT 5.5专业版参赛。其余3支参赛队伍均来自高校,分别是美国加州大学洛杉矶分校、美国普林斯顿大学,以及瑞士苏黎世联邦理工学院。
苏黎世联邦理工学院团队的模型表现最佳。该模型结合三大主流聊天机器人组成“顾问评审组”,对聊天生成预训练转换器的答案进行审核、优化,最终10题答对6题。第二名是加州大学洛杉矶分校团队,第三名是OpenAI团队,第四名是普林斯顿大学团队。
此外,苏黎世联邦理工学院团队还初步分析了全员未解出的4道题目。团队成员Johannes Schmitt表示,部分难题缘于AI始终想不到人类解题时用到的某个关键且巧妙的思路,无法补齐最后一环;针对部分题目,模型整体解题方向无误,却没能把所有细节推导完整。
“首轮求证”项目组成员、美国哈佛大学的Lauren Williams认为:“目前无法断定未解出的题目一定是难度更高的题目。我认为它们只是在研究方向、证明思路上和以往公开文献中的内容差距较大。”
这次测试中,即便明确要求模型核对参考资料,各大推理模型依旧频繁出现幻觉问题,这也是大语言模型的通病。
令Williams意外的是,所有AI作答在文献引用方面都“严重缺失”。多款模型借鉴了前人同类题目的解法,部分段落甚至逐句照搬论文原文、沿用专业符号与术语,却全程没有标注文献来源。
如今这批测试题目已对外公开,此前未正式参赛的科技企业大概率会利用这些题目对自家模型开展非正式测试。


