陶哲轩First Proof二期结果出炉量子位

陶哲轩又发成绩单了。

由他主导的First Proof项目第二批评测结果出炉。

本次评测延续了项目核心规则：选取10道从未在网络、期刊上公布过解法的前沿研究级数学新题，交由AI系统作答。

但相比第一次评测，本次测试进一步提高了标准。

评测全程采用专业的双盲同行评议机制，经专家评定，最终有7道题的AI解答达到学术发表标准，

其中，解得最漂亮的Problem 5——

一道关于随机偏微分方程的问题，AI提出的解法跟人类完全不同，推导得出了比人类解法更强的中间结论。

双盲同行评议

这次的题目是来自数学家真实研究中的新问题。

本次的问题覆盖了可计算理论、离散几何（和经典的莫比乌斯带猜想相关）、离散概率、度量几何（本次测试里AI全军覆没的难题）、随机偏微分方程、格论、组合拓扑、拟阵与热带几何、代数组合、冯・诺依曼代数十大方向。

和First Proof项目第一次评测一样，每一道问题都从未在网上或期刊上公开过证明。

出题人包括Larry Guth这样的顶尖数学家。

第二轮测试相比此前最大的升级，是引入了双盲同行评议机制。

不再让参赛方自己测试，全部由项目组统一操作；还找了30位数学专家像期刊审稿一样盲审打分。

评审只能看到提交的证明稿件，不知道作者到底是AI还是人类。

所有证明按照人类数学论文标准进行审核，并分为四档：

Essentially Flawless（基本无瑕疵）：逻辑严谨，几乎不用修改就能直接发表；

Minor Revisions（小修）：数学逻辑没问题，只是写错引用、表述啰嗦、小笔误；

Major Revisions（大修）：大方向没错，但核心步骤有漏洞，需要专家花大力气补全；

Reject（拒稿）：思路错误、关键证明造假、完全答非所问。

参与本次第二轮评测的共有4套AI系统。

System A：IMProofBench

该系统以GPT-5.5 Pro作为核心底座，同时兼容调用GPT-5.5、Gemini 3.1 Pro预览版、Claude Opus 4.7多款大模型协同运算。

System B：UCLA Moonshot Harnes

由加州大学洛杉矶分校团队研发，出自陶哲轩团队之手，该系统统一基于GPT-5.5 Pro搭建。

System C：OpenAI ChatGPT 5.5 Pro

OpenAI官方原生模型，测试过程中开启最高等级推理模式。

System D：Princeton Momus

这是普林斯顿大学团队推出的推理系统，也是本次评测中备受关注的一套方案，其底层依托Gemini 3.1 Pro预览版运行。

本轮测试采用“一题单次作答、无额外交互”的规则，所有系统在统一标准下完成答题。

成本最低8美元

综合39份有效AI解答的评审结果来看，在全部10道难题里，有7道题目出现了达到发表标准的解答，也就是拿到“近乎完美”或“小幅修改即可发表”的评级。

其中苏黎世联邦理工的System A 表现亮眼，在P5随机偏微分方程这道难题里，跳出人类常规思路，用全新方法完成证明，推导出更强的结论。

除此之外，第三题离散概率、第九题代数组合中，部分AI也给出了和人类解法截然不同的原创论证。

面对有成熟文献参考的题目，AI 优势更为明显，比如和经典莫比乌斯带猜想相关的P2离散几何题，三套AI都沿用已有研究思路顺利作答。

组合拓扑、格论等题型上，多套AI也交出逻辑完整的答卷，仅存在行文、格式等小问题。

本次评测还统计了四套AI的调用成本与耗时，云服务器总成本不足35美元，可忽略不计，但模型调用费用差距悬殊。

OpenAI原生ChatGPT 5.5 Pro性价比最高，10道题总花费117美元，最便宜的8美元，最贵的也就16美元……

该模型运行5.8小时，耗时最短，但原创能力偏弱；

普林斯顿团队系统花费1014美元、运行7.8小时，投入产出比较低。

解题能力最强的苏黎世联邦理工团队系统总费用达3186美元，单题最高花费951美元，运行时22.9小时；

陶哲轩所在UCLA团队系统成本最高，共计4799美元，运行23.1小时，虽稳定性尚可，却未实现能力突破。

陶哲轩自己也认为本轮整体表现未达预期，现存问题将作为后续优化方向。

同时，后续安排也已经明确，8—10月将开展First Proof项目第三批正式评测，评测规则沿用第二批次标准。

只能说，First Proof——

AI数学最严厉的母亲……