AI攻克6道世界级难题，陶哲轩指明新玩法新智元

Google DeepMind最新AI智能体Aletheia在FirstProof挑战赛中，独立攻克了6道世界级数学难题，实现了从竞赛水平到PhD科研级的质变。人类数学研究的「手工时代」或许正步入倒计时。

刚刚，人类数学界最后的防线，宣告全面崩塌！

连吃瓜群众都惊掉下巴：AI不仅会做题，现在居然已经能独立搞定PhD级别的纯粹数学研究了。

就在这两天，谷歌DeepMind的最新AI研究智能体Aletheia，在数学界一场名为「FirstProof」的巅峰挑战赛中，一口气干掉了10道公认的世界级未解数学难题中的6道！

DeepMind的高管Thang Luong在X上难掩激动地发帖：

「对我而言，这甚至比去年历史性拿下IMO金牌的成就意义还要重大！」

这可不是什么普通的数学竞赛。要知道，这些题目连全球最顶尖的数学家都感到极度棘手。

结果，Aletheia不仅自主算出了答案，甚至连提出其中第7题猜想的数学家Jim Fowler本人，都亲自出面盖章确认：「AI的解题过程，是完全正确的。」

就连当今世界最杰出的天才数学家陶哲轩，都在最新的访谈中表示：AI，已经成为了我的「初级合著者」。

Aletheia的「神之一手」：暴力推演

Aletheia到底有多厉害呢？

来看看谷歌DeepMind首席科学家兼研究主任，超级推理团队负责人Thang Luong怎么说：

「超级激动！我们的数学科研AI智能体 #Aletheia，刚刚全自主解出了10道出了名变态难的FirstProof挑战题里的6道，直接拿下了首届全场最佳！」

大家品品这句话的分量。

Luong直言不讳：

「在我看来，这甚至比咱们去年达到IMO（国际奥数）金牌水平的历史性时刻，含金量还要高得多！」

因为这些题，是连当今世界上最顶尖的几位数学大佬都感到极度头疼的「超级硬骨头」。

这次，DeepMind跑了两个基于Gemini 3 DeepThink打造的Aletheia版本（区别仅在于底层模型不同）。

经过多数专家的交叉「会诊」，它们联手干掉了10道题里的6道（分别是第2、5、7、8、9、10题）。

要知道，这套题的判卷评估环节简直是地狱难度。

因为这世界上能看懂其中这几道题的专家，都已经是凤毛麟角。

但也正因如此，DeepMind的研究过程严谨到了近乎偏执的地步：

整个解答过程纯靠机器自己跑，全程「零人工干预」，而且完完全全是在FirstProof规定的死线内提交的。

这是一个里程碑式的时刻。

不再是人类一步步喂算式，而是AI智能体已经学会了趴在一个极端复杂的科研难题上「死磕」很久，在几千条死胡同里撞南墙，最后跑回来向人类淡淡汇报一句：「我搞定了（或者搞砸了）。」

DeepMind甚至把Aletheia在这个过程中烧掉的算力（推理成本）做了完整的可视化——

其中最炸裂的，莫过于第7题（P7）的惊天翻盘。

这是一道好几年都没人能解开的非典型难题。

据该领域专家Tony Feng透露，在这次比赛里，除了Aletheia，根本没AI能接近正确答案。

刚开始跑的时候，连DeepMind团队自己都觉得Aletheia这次肯定没戏了，结果居然跑出了正确答案！

为了攻克P7，Aletheia投入了海量算力——是当初解开Erdős-1051问题时的整整16倍！

数学界权威Sang Hyun Kim在看完AI的解题步骤后，给出了极高评价：

「这是我有史以来第一次，看到AI完美无瑕地串联运用了好几个极其深奥的数学定理。这绝对是一个独一无二的稀有案例！」

关于DeepMind对FirstProof的解读和实验细节全放这了：

论文地址：https://arxiv.org/abs/2602.21201

不胡说八道，才是AI最硬核的底气

如果深挖DeepMind这篇论文，你会发现Aletheia之所以这么稳，根本原因在于它掌握了一项关键技能：「自我过滤」。

传统的AI大模型有个臭毛病，就是不懂装懂（幻觉）。

不管你问啥，它都会一本正经地给你编个答案。

但在科研级别的高端局，如果你给数学家扔一堆看起来极其合理但经不起推敲的废料，那还不如不给。

DeepMind是怎么解决这个问题的呢？