AI攻克6道世界级难题,陶哲轩指明新玩法新智元
Google DeepMind最新AI智能体Aletheia在FirstProof挑战赛中,独立攻克了6道世界级数学难题,实现了从竞赛水平到PhD科研级的质变。人类数学研究的「手工时代」或许正步入倒计时。
刚刚,人类数学界最后的防线,宣告全面崩塌!
连吃瓜群众都惊掉下巴:AI不仅会做题,现在居然已经能独立搞定PhD级别的纯粹数学研究了。
就在这两天,谷歌DeepMind的最新AI研究智能体Aletheia,在数学界一场名为「FirstProof」的巅峰挑战赛中,一口气干掉了10道公认的世界级未解数学难题中的6道!
DeepMind的高管Thang Luong在X上难掩激动地发帖:
「对我而言,这甚至比去年历史性拿下IMO金牌的成就意义还要重大!」
这可不是什么普通的数学竞赛。要知道,这些题目连全球最顶尖的数学家都感到极度棘手。
结果,Aletheia不仅自主算出了答案,甚至连提出其中第7题猜想的数学家Jim Fowler本人,都亲自出面盖章确认:「AI的解题过程,是完全正确的。」
就连当今世界最杰出的天才数学家陶哲轩,都在最新的访谈中表示:AI,已经成为了我的「初级合著者」。
Aletheia的「神之一手」:暴力推演
Aletheia到底有多厉害呢?
来看看谷歌DeepMind首席科学家兼研究主任,超级推理团队负责人Thang Luong怎么说:
「超级激动!我们的数学科研AI智能体 #Aletheia,刚刚全自主解出了10道出了名变态难的FirstProof挑战题里的6道,直接拿下了首届全场最佳!」
大家品品这句话的分量。
Luong直言不讳:
「在我看来,这甚至比咱们去年达到IMO(国际奥数)金牌水平的历史性时刻,含金量还要高得多!」
因为这些题,是连当今世界上最顶尖的几位数学大佬都感到极度头疼的「超级硬骨头」。
这次,DeepMind跑了两个基于Gemini 3 DeepThink打造的Aletheia版本(区别仅在于底层模型不同)。
经过多数专家的交叉「会诊」,它们联手干掉了10道题里的6道(分别是第2、5、7、8、9、10题)。
要知道,这套题的判卷评估环节简直是地狱难度。
因为这世界上能看懂其中这几道题的专家,都已经是凤毛麟角。
但也正因如此,DeepMind的研究过程严谨到了近乎偏执的地步:
整个解答过程纯靠机器自己跑,全程「零人工干预」,而且完完全全是在FirstProof规定的死线内提交的。
这是一个里程碑式的时刻。
不再是人类一步步喂算式,而是AI智能体已经学会了趴在一个极端复杂的科研难题上「死磕」很久,在几千条死胡同里撞南墙,最后跑回来向人类淡淡汇报一句:「我搞定了(或者搞砸了)。」
DeepMind甚至把Aletheia在这个过程中烧掉的算力(推理成本)做了完整的可视化——
其中最炸裂的,莫过于第7题(P7)的惊天翻盘。
这是一道好几年都没人能解开的非典型难题。
据该领域专家Tony Feng透露,在这次比赛里,除了Aletheia,根本没AI能接近正确答案。
刚开始跑的时候,连DeepMind团队自己都觉得Aletheia这次肯定没戏了,结果居然跑出了正确答案!
为了攻克P7,Aletheia投入了海量算力——是当初解开Erdős-1051问题时的整整16倍!
数学界权威Sang Hyun Kim在看完AI的解题步骤后,给出了极高评价:
「这是我有史以来第一次,看到AI完美无瑕地串联运用了好几个极其深奥的数学定理。这绝对是一个独一无二的稀有案例!」
关于DeepMind对FirstProof的解读和实验细节全放这了:
论文地址:https://arxiv.org/abs/2602.21201
不胡说八道,才是AI最硬核的底气
如果深挖DeepMind这篇论文,你会发现Aletheia之所以这么稳,根本原因在于它掌握了一项关键技能:「自我过滤」。
传统的AI大模型有个臭毛病,就是不懂装懂(幻觉)。
不管你问啥,它都会一本正经地给你编个答案。
但在科研级别的高端局,如果你给数学家扔一堆看起来极其合理但经不起推敲的废料,那还不如不给。
DeepMind是怎么解决这个问题的呢?


