数学家谈AI在数学领域的影响:拐点已出现coisini

4/22/2026

数学是一门推理严谨、逻辑缜密的学科,这与人工智能(AI)的「黑箱」特性看似背道而驰。然而,这一印象在 2025 年被彻底颠覆。

近日,发表于《Quanta Magazine》的一篇报道,归纳总结了多位数学家对 AI 在数学领域影响的观察与思考。ScienceAI 对《Quanta Magazine》报道核心内容进行了不改变原意的编译、整理,内容如下。

2025 年 7 月,多个人工智能模型在国际数学奥林匹克竞赛中解决了六道题中的五道。数学家们感到震惊 —— 难以预料到 AI 程序能这么快变得如此强大,但这些结果并不一定意味着 AI 将在数学研究领域取得重大突破。毕竟,奥赛题目只是已知答案的难题,而非未解之谜。

但转折点已经出现。

那些曾认为 AI 模型错误百出、难堪大用的数学家们开始尝试将其纳入研究工具。他们惊讶地发现 AI 不仅擅长解谜题,还能帮助开辟真正的新领域。很快,数学家们开始利用 AI 发现并证明新的结果,一天之内就能完成过去需要数周甚至数月的工作。

「2025 年是 AI 真正开始在许多不同任务上发挥作用的一年」,著名数学家陶哲轩表示。

虽然没有任何单一成果能称霸世界,但其中一些已经达到专业数学期刊发表成果的水平。在某些情况下,算法能在极少人工干预下提出猜想、证明它并验证证明过程。此外,与 ChatGPT、Claude 或 Gemini 等大型语言模型的广泛对话催生了全新的证明策略。

「这个人有铲子,那个人有镐头。我们一起就能挖通隧道,很多尝试就像『往墙上扔东西,看哪个能粘住』」,陶哲轩这样比喻。

多伦多大学数学教授 Daniel Litt 表示,即使是解决简单问题,AI「也在改变数学的研究方式」。

陶哲轩认为:数学的研究方式很快就会发生巨大变化。过去数学家一次研究一个问题,「有了这些工具,你可以一次解决成千上万的问题,并开始进行统计研究,我们将不得不进行许多范式上的变革、文化上的变革」,陶哲轩说道。

这些变革必然会面临争议,数学界与其他正在努力应对 AI 影响的学科一样。普林斯顿高等研究院教授、菲尔兹奖得主 Akshay Venkatesh 表示,随着 AI 模型成为强大的新工具,它们可能会导致数学家失去对数学理解的直接体验。与陶哲轩一样,Venkatesh 也认为 AI 的影响将是巨大的,但他更为谨慎:「我们(数学)文化中有一些宝贵的东西应该努力保留。」

一些数学家现在正离开学术界,前往 OpenAI、谷歌等大型科技公司工作,或加入专注于数学的 AI 初创公司,如 Harmonic、Logical Intelligence、Axiom Math 和 Math Inc。

「企业界对 AI 在数学领域如此感兴趣的一个原因是,人们认识到通用智能的关键在于结合从机器学习中获得的洞察与从数学中获得的精确性」,卡内基梅隆大学数学辅助推理研究所所长 Jeremy Avigad 说。

到 2026 年年初,对 AI 能力的震惊已转变为某种近乎惊叹的情绪。2 月份一项名为「First Proof」的挑战赛让参赛者在一周内用他们的 AI 模型解决数学各领域的 10 个研究级问题。数学家们特意选择了那些不太可能出现在算法训练数据中的问题。在不同程度的自主性下,这些模型成功解决了超过一半的问题。如果说奥赛结果代表了 AI 进入雄心勃勃的大学数学项目的时刻,那么 First Proof 的结果可以说标志着它们完成了研究生学业。在一篇分析 First Proof 挑战赛结果的文章中,Litt 写道:「这项技术很可能比计算机本身更重大。」

2025 年夏天是 AI 能力的一个拐点,而这并非凭空而来。谷歌 DeepMind 科学副总裁 Pushmeet Kohli 表示,DeepMind 自 2018 年以来一直在尝试用 AI 解决数学问题。现任职于 Axiom 的 François Charton 早在 2019 年就开始尝试利用机器学习解决数学问题。

但在最初几年,这只是一个冷门领域。起初,Charton 和其他少数人使用 AI 解决已知答案的问题,只是为了看看新技术能否奏效。到 2024 年,他们开始取得进展。他们寻找有丰富数据可供分析的问题,然后用 AI 构建具有可量化属性的数学对象 —— 例如在网格上放置点以避免形成等腰三角形的最佳排列方式。

2025 年 1 月,陶哲轩和布朗大学的 Javier Gómez-Serrano 开始与 DeepMind 的两位数学家 Adam Wagner 和 Bogdan Georgiev 合作开发一个名为 AlphaEvolve 的 AI 系统。AlphaEvolve 的工作原理是使用 Gemini 编写可能长达数百行的 Python 代码程序,然后利用所谓遗传算法「进化」这些程序,以寻找数学问题的最优解。四位数学家每隔一两天就用 AlphaEvolve 研究一个新问题,持续了几个月。

在这个过程中,他们也学会了如何改进给 AlphaEvolve 的提示。一个关键发现:模型似乎能从鼓励中受益 —— 比如「你能做到」。

到 5 月底,该团队已在数学多个领域的 67 个不同问题上测试了 AlphaEvolve。在其中 23 个问题上,AlphaEvolve 对已知最优解做出了小幅改进。在 67 个问题中的 36 个上,它的表现与已有成果相当;而在其余少数问题上,它未能匹配已知最优结果。

数学家们在 2025 年 11 月的一篇论文《大规模数学探索与发现》中分享了他们的发现。Gómez-Serrano 指出,他们的任何一个成果,如果由某个领域的专家投入数月时间,或许也能获得。但他们并非领域专家,却能在短短一两天内得到相当的结果。

正如陶哲轩所说,当前的 AI 模型「非常擅长在大规模问题列表中寻找『容易摘取的成果』」。这些工作繁琐、吃力不讨好,人类研究者并不愿意做。他还提醒说,模型们正在「大量未报告的失败之海中取得零散的成功」,而这些成功值得关注。

Gómez-Serrano 估计,他现在大约三分之二的时间都在使用 AI。他说:「(AI)正变得有用且可用。这是我们未来进行数学研究的新方式的开始。」

前几年,AI 的额外能力似乎源于它能够重新挖掘埋藏在晦涩参考文献中、早已被遗忘的证明。加州大学洛杉矶分校的 Igor Pak 曾指出,ChatGPT 目前「在查找参考文献、学术相关性等方面表现出色」。

然后,在 2025 年,苏黎世联邦理工学院的 Johannes Schmitt 表示,情况发生了变化,他说:「与 LLM 对话开始变得有用,不是因为它们会给你完整的答案,而是因为它们成了很好的对话伙伴。」

Schmitt 指出,AI 模型的有趣之处在于:一个受过任何数学训练的人,几乎不可能在犯下如此多基本错误的同时,还能提出精妙、原创且正确的想法。

加州大学洛杉矶分校的 Ernest Ryu 主要研究应用数学的一个分支 —— 优化理论。他在奥赛结果之后也更加关注 LLM,并开始用它们帮助准备讲义。他说:「有时 AI 模型会发现我推理中的一个错误,可能是重大的,可能是微小的。有时它甚至会找到一个比我讲义中更简单的证明。」

他有一种感觉,AI 模型正在「展现出生命的迹象」。他记得自己当时既怀疑又乐观。为了亲自判断 LLM 能做什么、不能做什么,他决定做一个实验。

他开始着手解决优化理论中一个未解决的问题,这个问题他过去曾尝试过几次。这一次,他使用了 ChatGPT。

Ryu 研究的问题最早于 1983 年由一位名叫 Yurii Nesterov 的俄罗斯数学家提出。Nesterov 试图寻找那些以多变量为输入、输出单个数值且以特定数学方式表现「良好」的函数的最小值。如果把输出想象成一幅高程地图,你要证明最终会收敛到最低点。

这类问题在应用数学中相当常见,尤其是在机器学习中,它是训练神经网络的核心。一种广泛使用的技术叫做梯度下降法,假设你从地图上的某一点开始,它使用微积分的基本工具来判断哪个方向是下坡,以及你所站位置的山坡有多陡。每次都沿着最陡的方向向下走一步,你最终会到达最低点。

尽管梯度下降法能让你得到正确答案,但有时它到达答案的速度非常慢。因此,数学家们长期以来一直在寻找能更快收敛到正确答案的变体。Nesterov 开发了一种技术,其中每一步下坡的大小不仅取决于函数在给定点的陡峭程度,还取决于你到达该点所经过的路径。如果你过去迈的步子更大,你就会继续保持大步幅。

直观上看,这种方法似乎能让你更快到达山底。但如果速度太快冲过头了呢?你可能会面临在真正最小值附近无限振荡、永远无法达到的风险。Nesterov 无法证明他的算法最终会收敛到最优值。42 年来,也没有其他人能做到。

Ryu 说当他询问 ChatGPT 时,它一直给出错误的证明,但过程中有一些有趣的步骤、一些正确且似乎可能有用的部分结果。随着模型逐步推进,Ryu 开始检查它的答案,保留正确的部分,并通过新的提示将其反馈给模型。

Ryu 说:「我不得不扮演验证者的角色,使用 ChatGPT 时,我感觉自己覆盖了非常多的内容,速度比我独自完成要快得多。这就是让我坚持下去的原因。」

在大约 12 个小时的工作之后,他得出了该问题一个简化版本的证明。又过了几天,他终于证明了 Nesterov 的方法是收敛的。Ryu 说:「这是一个可以在顶级优化期刊上发表的成果(不考虑 AI 辅助成分)。」

几个月后,Ryu 从加州大学洛杉矶分校请假,前往 OpenAI 工作。他认为我们终将得到真正令人印象深刻、由 AI 辅助的重大发现。

2025 年 9 月,来自世界各地的 100 多名数学家聚集在布朗大学,参加一个关于代数组合学的特别项目。

出于不同的原因,他们都有兴趣计算一个叫做 d-invariant 的量,这个量出现在数学的许多领域。要理解 d-invariant 是什么,首先需要了解其中一个领域中一个被深入研究的对象 —— 置换群。这个对象描述了一组物品(如一副扑克牌中的牌)可以洗出的不同排列方式。

Scroll for more