陶哲轩:大模型本身数学并不难51CTO技术栈
“训练和运行大模型的数学本身并不复杂,一个本科数学专业的学生就具备所有知识:矩阵乘法,加一点微积分。
真正缺乏理论的是:我们无法预测模型的表现。”
最近,著名数学家、菲尔兹获得者陶哲轩两次接受采访,公开表示大语言模型和现代AI的数学门槛没那么高,却有个“致命短板”:
“真正的难点不在于让这些模型如何运行,我们已经知道怎么构建、训练和操作大语言模型了。难点在于理论层面我们缺少可靠的方法来评估或预测它们的性能。”
关于陶哲轩,相信大家并不陌生。2023 年底,陶哲轩领导团队在三周内完成多项式 Freiman-Ruzsa 猜想(Polynomial Freiman-Ruzsa Conjecture,PFR)的 Lean 形式化验证;2024 年发起“等式理论计划”(Equational Theories Project),他正在身体力行地推动一场数学研究范式的变革。
在这两次公开访谈中,陶哲轩坦诚地分享了自己对形式化工具、AI 技术在数学中的运用以及对数学研究未来影响的看法。
在与美国宇宙学家 Brian Keating的对话中,陶哲轩透露,AI已经开始促成一些新的数学发现。比如在结理论中,人们用一种并不复杂的神经网络发现了此前没人预料到的结不变量之间的相关性。
神经网络提供了一种不同于传统实验或理论的新研究范式:先发现数学中隐藏的相关性,再由人类进行证明。
另外,陶哲轩指出AI 已经在文献回顾领域显现价值。对于某个数学问题,文献中可能已经有十几种处理方法,研究者可能只记得其中几种,而模型可以用来“提醒”你那些遗漏的方法。
陶哲轩认为AI目前本质上还是一个不可靠的工具,但不可靠的工具也可以很有价值。AI的真正优势在于规模化,可以在数学研究中辅助解决数以百万计的中等难度问题,但关键在于,只在你能验证的范围内使用 AI。
此外,陶哲轩指出,AI也会影响未来的数学教育。现在AI已经可以完成大量数学本科阶段的作业,因此必须重塑教学方式,未来需要培养的核心能力是验证信息的能力。
而在另一期访谈——与前 OpenAI 研究科学家、Morph Labs 创始人 Jesse Han,以及斯坦福大学助理教授 Jared Duker Lichtman的对话中,陶哲轩直言,AI在数学研究者替代了大量重复性劳动——如查阅文献、调整他人论文中的参数以及繁琐的计算,加速了数学研究的进展。
他举了个例子——液态张量实验,如果放在20世纪动辄需要几十年才能完成,现在仅仅花了18个月。
陶哲轩判断,AI会让数学走向”规模化生产”的模式,未来的数学家可能扮演“架构师”或项目经理的角色,领导大型协作项目。这种模块化的研究方式会允许”公民数学家“(非专业领域专家但具备某些技能的人)参与到前沿研究中,降低数学研究的门槛。
由于AI能够替代数学家完成很多繁琐重复的劳动,当AI工具真正成熟后,陶哲轩认为“我们做数学的方式可能会完全改变”。AI能帮助研究者发掘原本“错失的研究机会”,从而改变未来数学研究的路径。
小编精心整理了两期访谈中与AI相关的部分内容,希望对各位有帮助,enjoy!
AI看起来在做“推理”
但实际上并没有扎根于理解
Brian Keating:
AI 是否已经真正促成了一些不会出现的数学发现或新证明?
正在缓慢地开始。单独来看,目前 AI 的一个巨大弱点在于:它们可以生成看起来像人类数学家在“推理”的输出,但这些推理并没有真正扎根于理解。它是“修辞性的”,而非扎实的推理。
它们经常会犯错。这很像一个学生在黑板前紧张地解题:有时可能对,有时可能错。但如果这个学生基础不牢,一旦偏离正轨,就会偏离得非常彻底。这正是当前大语言模型的一个根本问题。
不过,如果你把它们作为更严谨、可验证推理系统中的一个组件来使用,情况就不同了。比如,让大语言模型提出建议,而由人类理解、筛选并验证这些输出。
在这种模式下,已经有人取得了一些成功:你向模型描述一个数学问题,它会给出若干思路,其中一些显然不可行,会被专家直接否定;一些是“我早就想过的”;但偶尔会出现一两条你本该想到、但却没想到的,真正有价值的提示。
目前 AI 已经开始显现价值的一个领域是文献回顾。某一类问题,文献中可能已经有十几种处理方法,而研究者可能只记得其中六种,其余六种一时想不起来。模型可以用来“提醒”你那些遗漏的方法。
当然,它也可能凭空捏造三种根本不存在的方法。所以你绝对不能信任它,必须进行监督与验证。
未来的希望在于:存在另一类技术——形式化验证软件,可以自动验证某些类型的证明。如果我们强制大语言模型只输出可被验证语言中的内容,就可以在很大程度上过滤掉幻觉。
神经网络可以发现数学中隐藏的相关性
Brian Keating:
那它是否已经能够“复现”某些非常激进的证明或定理?比如你的工作,Navier–Stokes 方程之类?它能否真正做出一个自然智能(比如你)会做的事情?
在某种意义上,它“可以”,但往往是因为训练数据污染。如果一个结果已经出现在教材或软件中,那么它很可能已经进入训练数据。于是 AI 所做的,只是像学生背诵教材一样进行记忆性复现。
AI 基本上“读过世界上所有教材”。因此很难区分它是在真正“思考”,还是仅仅在复述训练内容。如果你要求 AI 解释它的“思维链”,往往会发现输出完全是胡说八道,很明显它并不知道自己在做什么。
Brian Keating:
是的。我和学生 Evan Watson 也试过。我们给它提供了过去 3000 年水星轨道的数据(JPL 可以算出来),然后问:你能否先“发现”水星近日点进动异常,再预测它?
结果完全失败。我们不得不先把一切离散化、欧几里得化,而这反而破坏了问题本身。
我开玩笑提出过一个“Keating 测试”,类似图灵测试:当 AI 能提出此前未知、且能被人类验证的新预测时,我们就知道它是真的智能了。
这是一个非常有前景的应用方向。神经网络本质上是用来发现模式、相关性的。确实已经有一些数学例子:在结理论中,人们用一种并不复杂的神经网络(不是大语言模型)发现了此前没人预料到的结不变量之间的相关性。
注:结理论(Knot Theory)是数学中一个研究“结”这种几何—拓扑对象的分支,隶属于拓扑学(Topology),同时与几何、代数、物理(尤其是量子物理)有深度交叉。
具体来说:研究者向神经网络输入了约一百万个结的数据。结有许多不变量,其中一个叫“签名(signature)”,另一些是“超曲几何不变量”。
神经网络发现:仅根据这些超曲几何不变量,就可以以约 90% 的准确率预测结的签名值。
起初这是一个完全的黑箱:输入 20 个数,输出“签名是 +3”。但随后研究者开始“探测”这个黑箱:改变某一个输入,观察输出如何变化。最终发现,20 个输入中,只有 3 个真正重要,其余 17 个影响很小。
通过这种分析,他们获得了对结构的理解,并最终提出了一个可以被严格证明的数学命题。
所以,神经网络可以作为一种启发式工具:先发现现象,再由人类抽象、证明。
在你的天文学例子中,神经网络也许无法直接告诉你新的物理定律,但它可以预测未来 1000 年水星轨道的行为。然后你可以做“反事实实验”:改变质量、周期,观察输出变化,从而实验性地推断自然规律。
这提供了一种不同于传统实验或理论的新认识现实的范式。
训练和运行AI只需本科数学知识
困难在于预测模型表现
Brian Keating:
很多 AI 悲观论者担心 AI 会失控,但它似乎只是“平均化人类知识”,因此错误也是受限的。但它又确实有点“魔法”。
从数学角度看,支撑 AI 的不就是大规模矩阵乘法吗?真的那么复杂吗?


