谷歌「AI联合数学家」来了量子位

5/9/2026

数学界「悬案簿」Kourovka Notebook,AI 取得新突破。

群论领域几十年无解的第 21.10 号问题,被牛津数学家 Marc Lackenby 用谷歌一个新系统破解了。

过程也很有意思:AI 第一次给出的证明是错的,被系统里的审查 Agent 揪出了漏洞。

Lackenby 看到之后突然意识到:「等一下,我知道该如何填补这个漏洞」。

于是,通过和 AI 的反复配合,Lackenby 最终成功解答出了这道数学难题。

这套人机协作的系统,就是谷歌 DeepMind 最新发布的「AI Co-Mathematician」(AI 联合数学家)。

它在最难的数学 AI 基准 FrontierMath Tier 4 上拿了 48%,刷新 SOTA。

甚至超过了 GPT-5.5 Pro(39.6%)

和 GPT-5.4 Pro(37.5%)。

最近几个月,不少数学难题,诸如接连几个 Erdős 问题都是用 GPT 解决的。

现在,谷歌也回归了。

「AI 联合数学家」,是什么?

「AI 联合数学家」是一个

异步、有状态的工作空间,而非一问一答的模型。

顶层有一个「项目协调者」Agent 负责统筹,拆解任务,调度多条研究线并行推进。

数学家上传一篇论文、提出一个研究方向后,协调者不会立刻输出答案,而是先和用户对话,像真正的合作者一样帮对方精炼问题。

之后它将任务分发到多条并行工作流:一条做文献检索,一条搭计算框架,一条尝试证明策略。

每条工作流都有自己的协调 Agent,异步运行,互不阻塞。用户随时能介入、引导、接管。

如果 Agent 卡住了,它也会主动在聊天窗口里求助,而不是沉默重启。

比较特别的一点在于:它对失败的态度。

系统会持久化追踪所有失败的假说,不会丢弃,而是当作第一等的研究产出保存下来。

论文中提到,在数学研究里,

知道什么行不通往往和知道什么行得通同等重要。

「AI 联合数学家」会持久化追踪每一条死胡同、每一个被否定的假设、每一次审稿 Agent 发现的漏洞。这些「负空间」不会被丢弃,而是成为后续探索的上下文。

它的产出物也不是一段聊天记录或一篇未经验证的草稿,而是带 margin 注释和来源溯源的 LaTeX 文档 —— 完全契合数学家社群的工作习惯。

「AI 联合数学家」有什么意义?论文里有一段很精妙的比喻:

软件工程领域已经有了 Claude Code、Cursor 这类 AI 编码环境,它们提供了持续迭代、版本控制、测试验证的完整工作流。

但数学家此前一直缺少一个等价的编排层。

「AI 联合数学家」就是试图填补这个空白。

它的定位,与 DeepMind 上一代系统 AlphaEvolve 完全不同。

AlphaEvolve 更像一个自主搜索引擎:你把问题扔进去,它进化出一个更好的算法,人基本不在循环里。

而「AI 联合数学家」要求数学家始终在回路中,系统在最适合的时机向人类提问,而不是替人类做完整件事。

刷新最难数学 AI 基准 SOTA

在 benchmark 上,「AI 联合数学家」也拿下了出彩的成绩:

刷新了最难的数学 AI 基准 FrontierMath Tier 4 的 SOTA,拿了 48% 的准确率。

FrontierMath 是Epoch AI 开发的数学 benchmark,包含 350 道原创高难度题,覆盖现代数学各大分支。

其中 Tier 4 仅 50 题,被 Epoch AI 描述为「其中一些问题可能数十年内 AI 都无法攻克」,人类专家解决一道通常需要数天。

「AI 联合数学家」在 48 道非公开题中答对了 23 道,准确率 48%。

GPT-5.5 Pro 此前在 Tier 4 拿到 39.6%,GPT-5.4 Pro 是 37.5%,Claude Opus 4.6/4.7 则双双落在 22.9%。

相比之下,「AI 联合数学家」把最高分推了近 10 个百分点。

值得注意的是,它的底层基座模型 Gemini 3.1 Pro,单独做这个测试只拿到了 19%。

Scroll for more