GPT-5.4发布：OpenAI首个大一统模型量子位

GPT-5.4，它来了！

它更像是一个“模型能力大一统”成果：OpenAI首次在单一模型中，把推理（Reasoning）、编程（Coding）、计算机原生交互（Computer Use）、深度网页搜索以及百万级Token上下文全部揉碎、重组，焊死在了同一个模型里。

重点是，没有因为N in one而牺牲掉任何一个单项的性能——

OpenAI特别强调，GPT-5.4在以上领域的多个关键基准测试中依然保持领先。

跳票许久的OpenAI，终于冷不丁给了AI大模型圈梆梆一拳。

其中最能吸引开发者目光的，莫过于它是OpenAI首个原生支持“计算机使用”能力的通用模型。

我耳边都已经听到GPT-5.4的声音了：

玩儿龙虾的朋友们，走过路过考虑一下我咯～

同时，官方博文显示，GPT-5.4的效率也出现了明显提升。

相比GPT-5.2，GPT-5.4在推理过程中使用的Token数量显著减少。

Token消耗下降意味着响应速度更快，同时整体成本也更低。

是的，它变强了，但也变便宜、变快了。

这也是OpenAI这次发布反复强调的一点：能力提升和效率优化是同时发生的。

随着GPT-5.4上线，ChatGPT中的模型体系也随之调整。

GPT-5.4同步上线ChatGPT、API以及Codex。

在API价格体系中，GPT-5.4的单Token价格略高于GPT-5.2，但由于任务所需Token减少，总体成本可能并不会上升太多。

面向复杂任务的GPT-5.4 Pro版本也一起推出，在ChatGPT中则提供为GPT-5.4 Thinking。

值得小伙伴们注意的一点，GPT-5.4 Thinking将取代此前的GPT-5.2 Thinking，且GPT-5.2将在三个月后正式退役。

而GPT-5.1系列将在3月11日就要从ChatGPT里say bye bye了。

珍惜你们最后相处的甜蜜时光吧～

目前各个社交媒体已经炸开了锅。

有网友感慨道拥有百万token上下文窗口、还能原生使用电脑的GPT-5.4，和苹果史上最便宜笔记本电脑MacBook Neo同周发布……

“天爷啊，我的笔记本电脑正在经历一场存在主义危机！！”

三大能力提升，系OpenAI首个原生支持电脑操作的通用模型

在具体能力层面，GPT-5.4的升级可以概括为三个方向：

深度知识工作 (Knowledge Work）

原生计算机使用 (Computer Use）

高阶编程与调试 (Coding）

这三种能力基本覆盖了当前大多数数字工作的核心流程，而GPT-5.4都做得挺出色。

我们一一来看。

深度知识工作 (Knowledge Work）

首先是知识工作能力。

在衡量AI处理44种职业知识工作能力的GDPval基准测试中，它平局+获胜的综合得分83.0%。

多说几句嗷，GDPval评测主要是用来测试模型在真实职业场景中的表现，它评测涉及44种职业，覆盖了美国GDP贡献最高的9个行业。

具体任务上并不只是简单问答，它要求模型完成真实工作产物，例如销售演示文稿、会计表格、排班表、制造流程图甚至短视频。

所以在大量知识工作任务中，GPT-5.4的结果已经能够与专业从业者持平，甚至超过他们。

此外，OpenAI特别强化了GPT-5.4在办公文档领域的能力。

例如在内部投资银行建模测试中，GPT-5.4的平均得分达到87.3%，而GPT-5.2为68.4%。在人类评审的PPT生成测试中，评委有68%的时间更偏好GPT-5.4生成的结果，原因包括视觉效果更好、版式更丰富以及图片使用更合理。

从应用角度来看，这些能力对应的场景非常直接。

包括写报告、做财务模型、制作演示文稿、分析商业数据等工作，都是典型的知识型任务。

GPT-5.4正在朝着这类任务进行专门优化。

原生计算机使用 (Computer Use）

GPT-5.4最引人关注的一项能力是原生计算机操作，这是GPT-5.4区别于以往所有模型的核心标志。

模型可以通过截图理解软件界面，然后执行鼠标点击和键盘输入等操作。

包括发送邮件、创建日历事件、填写表单、操作网页等……都可以通过这种方式完成。

在WebArena浏览器任务测试中，GPT-5.4取得67.3%的成功率，高于GPT-5.2的65.4%。