GPT-5.4发布:OpenAI首个大一统模型量子位

3/6/2026

GPT-5.4,它来了!

它更像是一个“模型能力大一统”成果:OpenAI首次在单一模型中,把推理(Reasoning)、编程(Coding)、计算机原生交互(Computer Use)、深度网页搜索以及百万级Token上下文全部揉碎、重组,焊死在了同一个模型里。

重点是,没有因为N in one而牺牲掉任何一个单项的性能——

OpenAI特别强调,GPT-5.4在以上领域的多个关键基准测试中依然保持领先。

跳票许久的OpenAI,终于冷不丁给了AI大模型圈梆梆一拳。

其中最能吸引开发者目光的,莫过于它是OpenAI首个原生支持“计算机使用”能力的通用模型。

我耳边都已经听到GPT-5.4的声音了:

玩儿龙虾的朋友们,走过路过考虑一下我咯~

同时,官方博文显示,GPT-5.4的效率也出现了明显提升。

相比GPT-5.2,GPT-5.4在推理过程中使用的Token数量显著减少。

Token消耗下降意味着响应速度更快,同时整体成本也更低。

是的,它变强了,但也变便宜、变快了。

这也是OpenAI这次发布反复强调的一点:能力提升和效率优化是同时发生的。

随着GPT-5.4上线,ChatGPT中的模型体系也随之调整。

GPT-5.4同步上线ChatGPT、API以及Codex。

在API价格体系中,GPT-5.4的单Token价格略高于GPT-5.2,但由于任务所需Token减少,总体成本可能并不会上升太多。

面向复杂任务的GPT-5.4 Pro版本也一起推出,在ChatGPT中则提供为GPT-5.4 Thinking。

值得小伙伴们注意的一点,GPT-5.4 Thinking将取代此前的GPT-5.2 Thinking,且GPT-5.2将在三个月后正式退役。

而GPT-5.1系列将在3月11日就要从ChatGPT里say bye bye了。

珍惜你们最后相处的甜蜜时光吧~

目前各个社交媒体已经炸开了锅。

有网友感慨道拥有百万token上下文窗口、还能原生使用电脑的GPT-5.4,和苹果史上最便宜笔记本电脑MacBook Neo同周发布……

“天爷啊,我的笔记本电脑正在经历一场存在主义危机!!”

三大能力提升,系OpenAI首个原生支持电脑操作的通用模型

在具体能力层面,GPT-5.4的升级可以概括为三个方向:

深度知识工作 (Knowledge Work)

原生计算机使用 (Computer Use)

高阶编程与调试 (Coding)

这三种能力基本覆盖了当前大多数数字工作的核心流程,而GPT-5.4都做得挺出色。

我们一一来看。

深度知识工作 (Knowledge Work)

首先是知识工作能力。

在衡量AI处理44种职业知识工作能力的GDPval基准测试中,它平局+获胜的综合得分83.0%。

多说几句嗷,GDPval评测主要是用来测试模型在真实职业场景中的表现,它评测涉及44种职业,覆盖了美国GDP贡献最高的9个行业。

具体任务上并不只是简单问答,它要求模型完成真实工作产物,例如销售演示文稿、会计表格、排班表、制造流程图甚至短视频。

所以在大量知识工作任务中,GPT-5.4的结果已经能够与专业从业者持平,甚至超过他们。

此外,OpenAI特别强化了GPT-5.4在办公文档领域的能力。

例如在内部投资银行建模测试中,GPT-5.4的平均得分达到87.3%,而GPT-5.2为68.4%。在人类评审的PPT生成测试中,评委有68%的时间更偏好GPT-5.4生成的结果,原因包括视觉效果更好、版式更丰富以及图片使用更合理。

从应用角度来看,这些能力对应的场景非常直接。

包括写报告、做财务模型、制作演示文稿、分析商业数据等工作,都是典型的知识型任务。

GPT-5.4正在朝着这类任务进行专门优化。

原生计算机使用 (Computer Use)

GPT-5.4最引人关注的一项能力是原生计算机操作,这是GPT-5.4区别于以往所有模型的核心标志。

模型可以通过截图理解软件界面,然后执行鼠标点击和键盘输入等操作。

包括发送邮件、创建日历事件、填写表单、操作网页等……都可以通过这种方式完成。

在WebArena浏览器任务测试中,GPT-5.4取得67.3%的成功率,高于GPT-5.2的65.4%。

Scroll for more