谷歌要重夺王座:Gemini 3.1 Pro发布腾讯科技

2/19/2026

2025年11月,谷歌发布的Gemini 3 Pro曾短暂封王,但很快就被OpenAI和Anthropic的新模型挤下了宝座。不过,这场竞赛的残酷之处就在于,优势可能转瞬即逝。

就在2026年2月19日深夜,谷歌带着名为“Gemini 3.1 Pro”的新模型杀了回来。官方数据看着挺吸引人:在一项衡量AI解决全新逻辑问题能力的“怪考题”ARC-AGI-2上,Gemini 3.1 Pro的得分直接翻了一倍多,冲到77.1%。

第三方机构Artificial Analysis的测试也显示,Gemini 3.1 Pro的综合智能指数已经悄悄爬到了第一,把Claude Opus 4.6甩在了身后。

在Benchmark上,它没有选择去争那些靠用户投票的“人气榜”,专注在硬核推理、编码能力和成本控制上,摆出一副要跟开发者和企业用户“务实合作”的姿态。

最关键的是,性能涨了,价格却没变。谷歌这次,似乎是铁了心要用“加量不加价”的策略,把丢掉的头衔再抢回来。

01 “三级思考”模式

之前的Gemini 3 Pro可能会让人觉得它够快、够强,但有时候答案还是有点“飘”。这次的Gemini 3.1 Pro,谷歌把重点放在了“核心推理能力”上,换句话说,就是让它更会“动脑子”了。

这最直观地体现在名为ARC-AGI-2的测试里。这个测试考的不是死记硬背,全是些没见过的新逻辑题,专门用来检验AI真正的推理能力。

Gemini 3.1 Pro的得分在各项标准测试中均碾压同类竞品

Gemini 3 Pro之前的得分是31.1%,而Gemini 3.1 Pro一口气冲到了77.1%。谷歌DeepMind的老板戴密斯·哈萨比斯(Demis Hassabis)也特地发文说,这标志着模型在核心推理和问题解决能力上有了重大改进。

但真正的杀手锏,还不是得分。Gemini 3.1 Pro这次引入了一个“三级思考”模式——低、中、高。你可以把它理解为给模型装了一个可以调节的“算力旋钮”。简单说,就是用户可以根据任务难度,自己决定让模型花多少时间思考。

之前的Gemini 3 Pro只有两档:低和高。这次Gemini 3.1 Pro在中间加了一档,同时调整了“高”模式的含义。调到高的时候,模型会进入类似Deep Think的状态。Deep Think是谷歌上周更新的推理模型,特点是花更多时间处理复杂问题。现在Gemini 3.1 Pro自己就能做这件事,不用单独切换。

这个功能主要解决一个实际问题。以前开发者处理不同难度的任务,往往需要准备多个模型,简单对话用一个,复杂推理用另一个。接口不同,计费不同,还得自己写逻辑判断该调用哪个。时间长了,这套东西维护起来比较麻烦。

现在一个模型就够了。常规任务用低档,可以快速返回;复杂任务用高档,让它多花点时间处理。不用来回切换,也不用维护多个模型。

02 “抢王座”,跑分大比分获胜

既然是来“抢王座”的,就免不了要和OpenAI的GPT-5.2、Anthropic的Claude Opus 4.6这些老对手掰掰手腕。

从纸面数据看,Gemini 3.1 Pro这次确实挺能打。Artificial Analysis的智能指数测试里,它在10项评估中拿下了6项第一,包括Terminal-Bench Hard(编码)、GPQA Diamond(科学知识)和Humanity's Last Exam(推理知识)。

在Artificial Analysis的智能指数测试中,Gemini 3.1 Pro吊打对手

Scroll for more