AI操作系统战争已悄然打响锦缎

3/9/2026

OpenAI明里暗里预热了很久的GPT-5.4,终于在上周五正式亮相了。它的能力提升自不必说,但有意思的是,这次发布的新版本,和当下爆火的应用“龙虾”(OpenClaw),有着剪不断的关联。而这一切的核心,就藏在OpenAI官方介绍中反复强调的一个关键能力上:“Computer-Use”(计算机使用)。

在展开之前,我们先亮出核心观点,也是本文想要传达的主旨:透过GPT-5.4,我们可以看到,OpenAI正在打造的,早已不是一个更聪明的聊天模型,而是一个全新的“AI操作系统”(AI OS)。

从长上下文、工具调用到原生操控电脑,这一切都是在为这个“操作系统”铺路。当世界还在为OpenClaw的爆火而欢呼,为Agent的概念而兴奋时,OpenAI已经将Agent的核心能力(Computer-Use)内建于模型底层。

世界或许还浑然不知,但我们正站在一个新时代的起点:AI即将从“产品应用”蜕变为“操作平台”。

01 操作系统”的内核:推理+编码+工作流

相比Google的Gemini 精通于世界知识,OpenAI 的ChatGPT系列经常会被定义为“理科生”。

虽然自升级到 GPT-5 以后,它给人提供情绪价值的能力略有减弱,但编程和数学能力仍然极为出色。

这一次,为了让能力溢出的 AI 能够在 Agent 时代顺利落地到具体应用上,GPT-5.4 实现了一项核心技术突破:

将推理、编码、智能体工作流三方面能力整合至单一模型架构之中 。

简单来说,GPT-5.4 更全能了,而且在特定领域的能力也更强了,它不再是一个单一功能的工具,而是一个具备通用能力的“操作系统内核”。

在推理层面,为了更好地落实到应用层面、让模型具备执行复杂任务的能力,OpenAI 特意强化了 GPT-5.4 的上下文理解能力。

面对 100万 token 量级的复杂任务(相当于可以一次性处理整套项目文档或长时财务记录),模型能够整合海量的数据并正确进行信息去重 。对于单条事实声称的错误率相比 GPT-5.2 降低了 33%,在高专业度场景下的输出更加可信。

除此之外,GPT-5.4 已经可以在 CodeX 中设置支持 1M 的上下文窗口,不过需要用户在 config.toml 中手动设置,否则默认仍为 256k。

具体到知识工作,在面向 44 种职业的 GDPval 基准测试中,GPT-5.4 能够在 83% 以上的场景中达到甚至超越行业专家水平 。

相比于 GPT-5.2 的 70.9% 水平,这一提升幅度已经十分显著。不过令人有些疑惑的是,GPT-5.4 的 Pro 版本模型反而表现略逊于 GPT-5.4。(官方解释为 Pro 版本更侧重于极端复杂任务的稳定性,而非通用场景的平均分)

为了更好地让 GPT-5.4 融入人们的实际工作场景,OpenAI 在官方介绍中直观展现了新版本模型在电子表格、文档和幻灯片三个场景的专业级表现:

除此之外,GPT-5.4 取得的显著进步,在金融和法律等高专业度领域也发挥了至关重要的作用。

多家国际机构的反馈显示,新模型在财务建模、合同分析、长周期任务执行中准确率提升的同时,用户与 AI 的交互频次也减少了很多,显著缩短了任务完成时间。

针对最受开发者关注的编码场景,GPT-5.4 保持了与 GPT-5.3-Codex 生成同等质量代码的能力,没有显著的提升。不过,新增加的“/fast”模式能够实现约 1.5倍 的 token 生成速度 。

智能体方面,工具调用能力是智能体完成任务的核心,新引入的“工具搜索 (Tool Search)”机制让模型能够在数万个工具的大型生态中按需调用能力,在准确率保持不变的情况下token消耗量惊人地下降了47% 。

这正是“操作系统”调度底层资源的方式,高效且精准。

02 原生计算机操作:从理解到执行,这就是“操作系统”的界面

AI 的形态已经从大语言模型演进到了智能体,想要实现产品的商业化就必须让 AI 能真正帮人们做事。

于是,全球的AI企业不约而同地将目光放到了用户PC的控制权上。

但是,各种桌面端代理发布一段时间后,下载率和留存率其实都不理想。哪怕是对于 ChatGPT 的 9.56 亿月活用户而言,也有很多人不愿意单独下载一个桌面端代理软件 。

大家早已习惯和 AI(大语言模型)聊天,却还没适应让 AI(智能体代理)接管电脑。

于是,OpenAI想出了一个天才般的点子:让用户每天都在用的大模型操控电脑,不用专门下载安装。

于是,GPT-5.4 顺理成章地成为了第一个具备原生计算机操作能力的通用模型 。

原理其实并不复杂,它能够根据屏幕截图发出鼠标键盘指令,也可以通过 Playwright 等库编写代码来直接操作软件系统 。

相比于需要专门训练才能使用的 PC 端代理助手不同,GPT-5.4 选择将操控电脑的能力直接内建于通用架构之中,开发者在同一模型中即可无缝切换推理、编码或执行任务。正如“操作系统”天然拥有底层硬件(键鼠、屏幕)的驱动一样。

一提到操控电脑,那安全问题就不可回避。

GPT-5.4 的行为可通过开发者的输入进行精细化调节,以此适应不同应用场景的需求 。

为了确保安全,开发者可以配置自定义的安全确认策略,根据任务风险等级设置不同的操作确认机制。

数据查询、代码编写等低风险任务设置成自动执行,资金操作、文件删改则必须人工确认,既能保证系统安全,又能提升工作流的执行效率。

在 OSWorld-Verified 基准测试中,GPT-5.4 实现了 75% 的成功率,超越人类基准(72.4%) 的同时,大幅领先于前代 GPT-5.2 的 47.3% 水平,足以证明新模型在 PC 端任务场景中的实用和可靠 。

Scroll for more