姚顺宇谷歌首秀,Gemini新模型刷爆SOTA量子位
面对Claude Opus 4.6和GPT Codex 5.3的猛烈攻势,谷歌反手就是一个Gemini 3 Deep Think的重大升级。
在Codeforces(一个包含各种竞技编程挑战的基准测试平台)上,它取得了惊人的3455 Elo分数,相当于世界第8名。
这下子,全球只有7人的编程水平能排在它前面了。而此前最高分是一年前o3拿下的2727 Elo。
Gemini 3 Deep Think的实力不止于此,它还直接把ARC-AGI-2——这个公认测试AI推理能力的前沿基准,给刷到了史无前例的84.6%。
要知道,之前最强模型的得分在60%-70%之间徘徊,Claude Opus 4.6的成绩也只有68.8%。
在人类最后考试(HLE)上,Gemini 3 Deep Think也刷新SOTA,拿下了48.4%的成绩。
官方表示,新版Deep Think是谷歌专门开发的推理模式,旨在推动智能前沿发展,并解决科学、研究和工程领域的现代挑战。
另一位“尧舜禹”——清华物理系传奇特奖得主姚顺宇(Shunyu Yao),去年9月加入谷歌DeepMind,也是这次Deep Think新模型的参与者。
新版DeepThink已经走进了实验室
升级后的Gemini 3 Deep Think实力究竟有多强?
它的野心不止于赢得基准测试,而是要走进科研和工程领域,帮助工程师处理复杂任务。
新版Deep Think可以分析草图,对复杂形状进行建模,并直接生成用于3D打印的实体文件。这是它打印的一个笔记本电脑支架:
谷歌VP Josh Woodward 在X上晒出了打印的成果,看起来对草图相当还原:
罗格斯大学的数学家Lisa Carbone,利用Gemini 3 Deep Think审阅了一篇高度专业的数学论文。
结果Gemini 3 Deep Think成功地识别出了一个细微的逻辑缺陷,而这个缺陷在此前的人工同行评审中均未被发现。
杜克大学的王安实验室,利用Gemini 3 Deep Think技术优化了复杂晶体生长的制备方法,以期发现新的半导体材料。
结果Gemini 3 Deep Think成功设计了一种能够生长厚度大于 100 微米薄膜的工艺,达到了以往方法难以企及的精确目标。
在X上,DeepSeek多模态团队研究员XiaoKang Chen也表示:Gemini 3 Deep Think非常擅长处理科学领域中的长尾任务。


