OpenAI研究员自爆：ChatGPT数学进阶之路51CTO技术栈

ChatGPT 的数学水平是如何从“算不清数”提升到能协助菲尔兹奖得主了呢？

今天，OpenAI 官方播客发布了一期节目，让内部研究员 Sebastian Bubeck 和 Ernest Ryu 出来回答这一问题，毕竟大家都十分好奇。

Ernest 近期刚加入 OpenAI 担任研究员，他之前是加州大学洛杉矶分校（UCLA）数学系的教授，研究优化和机器学习理论。他是最早尝试用 ChatGPT 解数学开放问题的那批人之一。

2025年，他借助 ChatGPT 解决了困扰数学界 42 年的 Nesterov 加速梯度法问题。在对谈中他提到，之前他自己花了超过 40 个小时而且失败了，而和 GPT 合作只花了 12 小时就解决了这一难题。

另一位嘉宾 Sebastian 曾在普林斯顿大学做过教授、就职过微软，已经从事数学研究近 20 年。加入 OpenAI 后，他一直致力于理解 AI 如何帮助做数学研究，并评估 AI 在解决困难数学问题方面所取得的进展。

在这场播客的开端，两位嘉宾一致都认同，“2025 年夏天 ChatGPT 在国际奥数竞赛中获得金牌”的新闻让数学界十分震惊，毕竟 2023 年 ChatGPT 才刚刚问世。而且在 2025 年年初，Ernest 让 ChatGPT 计算三个人露营时的平摊费用和确定不同时区的人都要参加的线上会议时间，它都算不好。

ChatGPT 的数学进展为何如此之快呢？Sebastian 的回应是：他们在 OpenAI 做了大量的研究和创新，不仅仅只是缩放（Scaling）模型，是很多因素共同作用的结果。感觉很笼统，并没有讲干货。

但是Sebastian 着重强调，“数学在过去四年中是观察模型进步的完美基准”，而现在“会做数学”仍是推理模型追求的目标，原因是：解决数学问题需要长时间的思考，而且过程中要保持逻辑一致。

还有一个让数学界广泛关注的进展是，ChatGPT 能解决一位数学家保罗·埃尔德什（Paul Erdős）留下的开放问题。通过扫描数千篇不相关的论文，在两个完全不同的数学分支间建立联系，模型做到了解答 10 个埃尔德什问题。

一开始很多数学家还不相信这件事是真的，到现在模型还做到了给出文献中不存在的超过 10 个的全新解法，Sebastian 说这些解法“完全可以在组合数学的顶尖期刊上发表”。

在对谈中，他们还谈论了“自动化研究员”的愿景，也就是“模型或模型集群可以自主工作很长一段时间”。Sebastian 讲到，AI 的思考时间过去已经经历了从“秒”到“分钟”、到“小时”、到“天”的跨越，现在大致处于”天”到“一周”的阶段，而未来希望走向“周”甚至是“月”。

当模型成为“自动化研究员”后，人类的角色是什么呢？

Sebastian 给出的答案是：我们解题是因为我们在尝试理解更深层次的事物，而这是为了更好的控制我们的环境。对于“哪些问题是重要的”，我们必须对AI保持控制并引导，比如“AI 并不在乎治愈疾病，它们不会像我们一样遭受疾病之苦，但我们在乎”，而这会让我们迎来一个非常光明的未来。

说到未来，两位研究员认为 AI 时代的数学将变得解法更多、乐趣更多，理论互联性更强，结论被验证的速度更快且更可信。同时，深度理解比以往任何时候都更有价值。缺乏专业背景的人使用 AI 往往会产生看似合理实则荒谬的“幻觉证明”。

与此同时，他们也期待 AI 的数学能力会扩展到所有科学领域，能够让科学家更高效、更强大，做出更好的成就。

以下为这场播客的对话全文，enjoy：

LLM在数学领域取得的进展让职业数学家们都十分震惊

Andrew Mayne：我想很多人都有这种认知，觉得这些模型不擅长数学，毕竟它们被称为“语言模型”。这种情况是怎么改变的？发生了什么？

Sebastian Bubeck：是的，我认为过去几年的进步简直是奇迹。重要的是要记住，两年前我们甚至还没有推理模型，更不用说能证明困难数学定理的模型了。两年后的今天，这些模型已经能够在日常工作中协助菲尔兹奖得主了。所以这种跨越简直令人震惊。如果我能再补充一点，有一点很重要：包括我们在内的所有人都对这种进步感到惊讶。

给你讲个故事，一年半以前，我和其他数学家同事参加了一个会议的工作坊，我参加了一场辩论，主题是大语言模型（LLM）的缩放（Scaling）是否能帮助我们解决重大的开放性问题。那是大约一年半前的辩论，当时全场分歧很大。事实上，他们在开始时做了一个民意调查，我想大约 80% 的人说“不，这不可能发生”。随后辩论展开。到辩论结束时，比例变成了大约 50 对 50。在那一个小时里取得了不错的进展。

事后看来，这显然是大错特错的。仅仅 8 个月后，模型就开始能够进行研究级别的数学工作了。

Andrew Mayne：对你来说，意识到 AI 和数学之间存在绝佳交汇点的突破性时刻是什么？

Ernest Ryu：2025 年夏天，重大新闻是 ChatGPT 在国际数学奥林匹克（IMO）中达到了人类顶尖水平，获得了金牌表现。那是一个惊人的消息。这证明了，至少对于竞赛级别的数学，模型的逻辑能力已经非常强了，可以与人类最顶尖的高中选手相提并论。但是，竞赛题目是“套路题”。它们的解法相对较短，因为要求在几个小时内解出。而且它们不是原创的，因为既然题目出得出来，就一定有解。所以那还不算研究级别的数学。于是我产生了好奇，很多人也很好奇：ChatGPT 能做研究级别的数学吗？网上有很多讨论。然后我想，我应该在自己的问题上试一试。与其听别人怎么说，不如亲自尝试并做出判断，因为我自己就是数学家。

Ernest Ryu：于是我选了一个优化理论中的经典开放问题，这是我从事的应用数学分支。具体问题是关于一个著名的算法，叫做 Nesterov 加速梯度法。问题是：它是否始终具有这种收敛行为，还是在某些极端情况下，可能存在某种发散行为？这个问题是真正的开放性问题，因为人们知道在大多数情况下，该算法表现良好且收敛，但人们确实不知道是否存在反例？在最坏的情况下，它会发散吗？答案证明是肯定的。

我记得非常清楚我是如何发现它的。我给儿子定的睡觉时间是晚上 8 点，然后我尽量不在午夜之后熬夜。所以，如果我想专注于某件事，我通常有四个小时的晚间个人时间。于是我决定，好，我要花几天时间研究这个问题。在三天的跨度里，总共 12 个小时，我针对这个问题与 ChatGPT 进行了互动。这并不是我输入提示词就能得到答案那么简单。我扮演了验证者的角色。每当模型犯错时，我都会纠正它。我还试图将对话引导至我觉得新颖的方法领域。一段时间后，证明出来了，我检查了一遍。我还让 ChatGPT 进行了复核，结果是正确的。就这样，这个困扰了 42 年的开放性问题得到了解决。得到这个解法后，我在想，对我来说最有趣的发布方式是什么？因为我可以写一篇论文，但那样比较无趣。所以我决定，去 Twitter（现 X）上聊聊这件事。我玩得很开心。我想这是 AI 解决真实数学开放问题的最早案例之一，大家非常关注，这真的很有趣。

2025 年初及之前，ChatGPT 在普通数学问题上仍表现不佳

Andrew Mayne：你提到这一点很有趣，我们有时看到有人说“嘿，我发现了一些很酷或很新颖的东西”，有时会被拆穿，有时则经得起推敲。社交媒体可能有点可怕，但看起来我们确实需要这种反馈循环。我想对我们很多人来说，挑战在于听到像“国际奥数”这样的词时，很难理解它在问题难度等级上意味着什么。我能理解加减乘除。你能给我举个例子吗？模型是如何从最初只能勉强应付，到能做数学、能使用工具，再到模型能够隐式理解数学的？

Ernest Ryu：2023 年初 ChatGPT 刚问世时，我开始测试它。我很好奇模型在普通数学问题上的表现。这包括高中水平的题目，也包括日常生活中带有数学性质的问题。

例如，想象一个场景，我们三个人一起去露营，我付了这个钱，Andrew 你付了那个钱。最后我们想结清账目，平摊费用。ChatGPT 能帮我们计算吗？如果你买了 17 样东西，这其实中等复杂。在 23 年、24 年，甚至 25 年初，我记得模型都做不好。

另一个例子是，假设我在韩国，Seb 在巴黎，Andrew 你在加州，我们想安排一个 Zoom 会议。什么时候比较合适？同样，在 25 年初，模型也做不好。

但突然之间，情况发生了变化。我当时不在 OpenAI，所以并不完全清楚你们具体做了什么，但模型突然开始解决 IMO 题目了。更进一步，它开始解决研究级问题。我现在对此的评估是：除非你是一名试图发现新数学理论的职业数学家，如果你是一名物理学家或化学家，需要使用复杂的数学（如微分方程、微分几何等），但你不是在发明新数学，那么 ChatGPT 可以处理你所需的所有数学。

Ernest Ryu：基本上，STEM 领域的任何高级数学使用者现在都可以使用 ChatGPT 来处理他们的数学问题。你还是需要保持一定程度的谨慎，检查结果是否正确，运行仿真进行复核。模型是会犯错的。但现在，对于 99% 的人想要解决的任何数学问题，模型都能胜任。

Andrew Mayne：当我参与 GPT-4 的发布工作时，我曾把排程作为例子。我可以把三个人的行程放进去让它找出时间段。但再往后推就很难了。为什么会发生这种变化？Ernest 刚才谈到突然发现它变强了。我们知道其中一点是工具的使用，比如允许模型使用计算器。但模型本身也发生了其他变化。

Sebastian Bubeck：回到我刚才告诉你的那场辩论，当时的争论点在于仅仅靠缩放（Scaling）LLM 本身，是否能让你在数学研究上取得突破。这是一个错误的框架。我们在 OpenAI 做了大量的研究和创新，不仅仅是缩放模型。当你问去年年中发生了什么，让模型突然能解决数学问题时，其实是很多因素共同作用的结果。我们做了很多研究，所有这些研究必须同时推进。所以我无法将其归功于单一因素。

Andrew Mayne：但它确实在不借助工具的情况下做到了。

Sebastian Bubeck：是的。我认为有必要再次强调 Ernest 所说的关于进度以及模型以前无法处理的排程问题。我说过两年前我们没有推理模型，想想四年前。四年前是 ChatGPT 诞生之前。我记得当时 Google 推出了一款名为 Minerva 的数学模型。我当时惊讶得从椅子上摔了下来。我被什么惊到了？只要给模型平面上点的坐标，它就能给出一条穿过这些点的直线。现在说起这个，大家可能很难理解了：“你在说什么？模型当然能做到。”所以我认为我们有些忘记了事情发生得有多快。而现在，正如 Ernest 所说，除非你想发明新的数学，否则模型基本已经达到了所需的水平。我甚至会说，我们已经看到了模型甚至可以发明新数学的微光。

LLM 会数学是衡量模型进步的重要基准

Andrew Mayne：你能分解一下吗？除了对开发新数学领域或证明新定理感兴趣的人之外，这会对其他事物产生什么影响？这对科学的影响是什么？对你们正在研究的其他工作有什么影响？为什么这非常重要，而不只是“噢，真酷，它会做题”？

Sebastian Bubeck：我认为，“它会做数学”这部分在开发模型过程中作为衡量进度的基准非常重要。数学的好处在于问题非常清晰且没有歧义。大家都认同问题的要求。这是第一点。第二点，你可以验证答案。一旦模型给出答案，所有人都会达成共识：它是对还是错。虽然研究级别的评估没那么简单，但在研究级别以下，评估非常容易。所以，数学在过去四年中是观察模型进步的完美基准。现在，我们可以说在这个方面已经趋于饱和。你可以问，好，现在模型会数学了，下一步呢？

对于下一步，我会说让模型擅长数学对很多其他事情都有好处。让我解释一下原因。数学的一个关键特征是，要解决一个问题，你必须思考很长时间，可能是几天、几周，甚至几年。这种长时间的思考，不仅要求时间长，还要求思考过程始终保持逻辑一致。如果在推理链条的某个地方出现了一个错误，整个论证就毁了。即使在那之后的一切都是正确的也没用。只要有一个失效点，整个论证就崩溃了。这种特性使得它成为推理模型所追求的目标，即如果它们犯了错，它们能够自我纠正。所以我们希望，它们通过数学获得的这种能力可以推广到其他领域。顺便说一句，这和人类的情况完全一样。我们为什么要训练人类学数学？这很有趣，我热爱数学，我们也以此为业。但训练人类学数学的原因完全相同：它赋予你这种非常严密的逻辑思维能力。

Andrew Mayne：我们需要思考讨论这些发现的新方式吗？

Ernest Ryu：是的。我个人认为我的部分职责是尝试向研究界科普最近的进展，因为我拥有双重背景：既是前数学家，现在又在 AI 的前沿工作。确实，Twitter 和社交媒体是解释进展的好地方，尤其因为这种进步速度太快了。

ChatGPT 解决数学界埃尔德什（Erdős）问题

Andrew Mayne：例如，我们可以聊聊埃尔德什（Erdős）问题，以及围绕它发生的一些争议。首先是 Ernest 举的例子，然后还有其他几个问题被解决了。你能顺便介绍一下保罗·埃尔德什（Paul Erdős）是谁吗？我想大家会想知道他为何如此特别，以及为什么他的问题很有趣。

Sebastian Bubeck：当然。保罗·埃尔德什是上个世纪最高产的数学家之一。我想他写了 1500 篇研究论文。他是一个非常特立独行的人物。他没有房子或公寓。他只是从一所大学旅行到另一所大学，寻找新的合作者。每到一个地方，他基本上就是提问。他在提问方面非常有天赋。并不是他提出的所有问题都有趣，但这极具启发性。研究界和他一起写了很多论文。甚至有一个“埃尔德什数”的概念，即在合作者链条中，你离埃尔德什有多远。我的埃尔德什数是 2。我和一个曾与埃尔德什合著过的人合著过论文。

Andrew Mayne：哇，那很厉害。

Ernest Ryu：我的数是 3。

Sebastian Bubeck：有个笑话是，你可能只是和他坐了一趟火车，到下车时，你可能已经和他合写了一篇论文并署了名。

Ernest Ryu：没错。我认为“2 对 3”基本上反映了我们各自的年龄差异，这才是真相。

Sebastian Bubeck：总之，埃尔德什留下了所有这些问题。Thomas Bloom 建立了一个非常棒的网站，追踪所有仍未解决的埃尔德什问题。那个网站上大约有一千个问题。Thomas 本人就是组合数学专家。他可以标明：这个是开放的，这个已解决。当然，他不一定知道所有问题的答案。如果一个问题被标记为“开放”，并不一定意味着真的没人会解，但也可能是一个互动的平台，人们可以在上面评论和解释解法。当我们开始让 GPT 解决数学研究问题时，这看起来就像是一个尝试模型的宝库。我们试了几个。令我们大为惊讶的是，模型对一些标记为“开放”的问题给出了答案。我们对此感到非常兴奋。

我在去年 10 月左右发过一条推文，那是一个“深度文献搜索”的结果。让我解释一下这意味着什么。这意味着 GPT 做了极其广泛的文献检索，扫描了数千篇论文。它在某个不相关的领域找到了该问题的答案。理解这一点很重要：并不是说在那个无关领域里，有人写道“我在解决埃尔德什问题”。它是用完全不同的语言编写的，属于不同的数学分支。你必须做工作把这两部分联系起来，而 GPT 做到了。这太神奇了。这在当时还比较随机，我们只是在 ChatGPT 界面上手动尝试。看到这些后，我们团队的 Mark Selke 决定采用更系统的方法尝试所有问题，模型给出了 10 个埃尔德什问题的解法。你要记住，当时关于模型是否能超越现有技术水平去发现、发明新数学仍有激烈的讨论。

我对这个结果非常兴奋并发布了推文。那条推文后来有点“恶名昭彰”，因为人们误解了我的意思，以为它真的凭空想出了 10 个非常困难的开放问题的全新解法，且文献中从未存在过。但事实并非如此。它与之前的情况相关，即“深度文献搜索”。当时还和 Google 的 Demis 关于如何描述此类结果产生了一些争论。但现在的重点非常惊人，也就是几个月后的今天。我当时说的是 10 个开放问题的解法，而那些解法存在于文献中。那么问题来了：你能找到文献中不存在的解法吗？到目前为止，我们已经拥有超过 10 个真正的全新解法，完全可以在组合数学的顶尖期刊上发表，这些解法完全是由 ChatGPT 或我们的内部模型得出的。这再次说明了加速度：在短短几个月内，我们就从“说能解 10 个埃尔德什问题听起来很荒谬”变成了“这正真实发生且在加速”。