姚顺宇谷歌首秀，Gemini新模型刷爆SOTA量子位

面对Claude Opus 4.6和GPT Codex 5.3的猛烈攻势，谷歌反手就是一个Gemini 3 Deep Think的重大升级。

在Codeforces（一个包含各种竞技编程挑战的基准测试平台）上，它取得了惊人的3455 Elo分数，相当于世界第8名。

这下子，全球只有7人的编程水平能排在它前面了。而此前最高分是一年前o3拿下的2727 Elo。

Gemini 3 Deep Think的实力不止于此，它还直接把ARC-AGI-2——这个公认测试AI推理能力的前沿基准，给刷到了史无前例的84.6%。

要知道，之前最强模型的得分在60%-70%之间徘徊，Claude Opus 4.6的成绩也只有68.8%。

在人类最后考试（HLE）上，Gemini 3 Deep Think也刷新SOTA，拿下了48.4%的成绩。

官方表示，新版Deep Think是谷歌专门开发的推理模式，旨在推动智能前沿发展，并解决科学、研究和工程领域的现代挑战。

另一位“尧舜禹”——清华物理系传奇特奖得主姚顺宇（Shunyu Yao），去年9月加入谷歌DeepMind，也是这次Deep Think新模型的参与者。

新版DeepThink已经走进了实验室

升级后的Gemini 3 Deep Think实力究竟有多强？

它的野心不止于赢得基准测试，而是要走进科研和工程领域，帮助工程师处理复杂任务。

新版Deep Think可以分析草图，对复杂形状进行建模，并直接生成用于3D打印的实体文件。这是它打印的一个笔记本电脑支架：

谷歌VP Josh Woodward 在X上晒出了打印的成果，看起来对草图相当还原：

罗格斯大学的数学家Lisa Carbone，利用Gemini 3 Deep Think审阅了一篇高度专业的数学论文。

结果Gemini 3 Deep Think成功地识别出了一个细微的逻辑缺陷，而这个缺陷在此前的人工同行评审中均未被发现。

杜克大学的王安实验室，利用Gemini 3 Deep Think技术优化了复杂晶体生长的制备方法，以期发现新的半导体材料。

结果Gemini 3 Deep Think成功设计了一种能够生长厚度大于 100 微米薄膜的工艺，达到了以往方法难以企及的精确目标。

在X上，DeepSeek多模态团队研究员XiaoKang Chen也表示：Gemini 3 Deep Think非常擅长处理科学领域中的长尾任务。