AI操作系统战争已悄然打响锦缎

OpenAI明里暗里预热了很久的GPT-5.4，终于在上周五正式亮相了。它的能力提升自不必说，但有意思的是，这次发布的新版本，和当下爆火的应用“龙虾”（OpenClaw），有着剪不断的关联。而这一切的核心，就藏在OpenAI官方介绍中反复强调的一个关键能力上：“Computer-Use”（计算机使用）。

在展开之前，我们先亮出核心观点，也是本文想要传达的主旨：透过GPT-5.4，我们可以看到，OpenAI正在打造的，早已不是一个更聪明的聊天模型，而是一个全新的“AI操作系统”（AI OS）。

从长上下文、工具调用到原生操控电脑，这一切都是在为这个“操作系统”铺路。当世界还在为OpenClaw的爆火而欢呼，为Agent的概念而兴奋时，OpenAI已经将Agent的核心能力（Computer-Use）内建于模型底层。

世界或许还浑然不知，但我们正站在一个新时代的起点：AI即将从“产品应用”蜕变为“操作平台”。

01 操作系统”的内核：推理+编码+工作流

相比Google的Gemini 精通于世界知识，OpenAI 的ChatGPT系列经常会被定义为“理科生”。

虽然自升级到 GPT-5 以后，它给人提供情绪价值的能力略有减弱，但编程和数学能力仍然极为出色。

这一次，为了让能力溢出的 AI 能够在 Agent 时代顺利落地到具体应用上，GPT-5.4 实现了一项核心技术突破：

将推理、编码、智能体工作流三方面能力整合至单一模型架构之中。

简单来说，GPT-5.4 更全能了，而且在特定领域的能力也更强了，它不再是一个单一功能的工具，而是一个具备通用能力的“操作系统内核”。

在推理层面，为了更好地落实到应用层面、让模型具备执行复杂任务的能力，OpenAI 特意强化了 GPT-5.4 的上下文理解能力。

面对 100万 token 量级的复杂任务（相当于可以一次性处理整套项目文档或长时财务记录），模型能够整合海量的数据并正确进行信息去重。对于单条事实声称的错误率相比 GPT-5.2 降低了 33%，在高专业度场景下的输出更加可信。

除此之外，GPT-5.4 已经可以在 CodeX 中设置支持 1M 的上下文窗口，不过需要用户在 config.toml 中手动设置，否则默认仍为 256k。

具体到知识工作，在面向 44 种职业的 GDPval 基准测试中，GPT-5.4 能够在 83% 以上的场景中达到甚至超越行业专家水平。

相比于 GPT-5.2 的 70.9% 水平，这一提升幅度已经十分显著。不过令人有些疑惑的是，GPT-5.4 的 Pro 版本模型反而表现略逊于 GPT-5.4。（官方解释为 Pro 版本更侧重于极端复杂任务的稳定性，而非通用场景的平均分）

为了更好地让 GPT-5.4 融入人们的实际工作场景，OpenAI 在官方介绍中直观展现了新版本模型在电子表格、文档和幻灯片三个场景的专业级表现：

除此之外，GPT-5.4 取得的显著进步，在金融和法律等高专业度领域也发挥了至关重要的作用。

多家国际机构的反馈显示，新模型在财务建模、合同分析、长周期任务执行中准确率提升的同时，用户与 AI 的交互频次也减少了很多，显著缩短了任务完成时间。

针对最受开发者关注的编码场景，GPT-5.4 保持了与 GPT-5.3-Codex 生成同等质量代码的能力，没有显著的提升。不过，新增加的“/fast”模式能够实现约 1.5倍的 token 生成速度。

智能体方面，工具调用能力是智能体完成任务的核心，新引入的“工具搜索 (Tool Search)”机制让模型能够在数万个工具的大型生态中按需调用能力，在准确率保持不变的情况下token消耗量惊人地下降了47% 。

这正是“操作系统”调度底层资源的方式，高效且精准。

02 原生计算机操作：从理解到执行，这就是“操作系统”的界面

AI 的形态已经从大语言模型演进到了智能体，想要实现产品的商业化就必须让 AI 能真正帮人们做事。

于是，全球的AI企业不约而同地将目光放到了用户PC的控制权上。

但是，各种桌面端代理发布一段时间后，下载率和留存率其实都不理想。哪怕是对于 ChatGPT 的 9.56 亿月活用户而言，也有很多人不愿意单独下载一个桌面端代理软件。

大家早已习惯和 AI（大语言模型）聊天，却还没适应让 AI（智能体代理）接管电脑。

于是，OpenAI想出了一个天才般的点子：让用户每天都在用的大模型操控电脑，不用专门下载安装。

于是，GPT-5.4 顺理成章地成为了第一个具备原生计算机操作能力的通用模型。

原理其实并不复杂，它能够根据屏幕截图发出鼠标键盘指令，也可以通过 Playwright 等库编写代码来直接操作软件系统。

相比于需要专门训练才能使用的 PC 端代理助手不同，GPT-5.4 选择将操控电脑的能力直接内建于通用架构之中，开发者在同一模型中即可无缝切换推理、编码或执行任务。正如“操作系统”天然拥有底层硬件（键鼠、屏幕）的驱动一样。

一提到操控电脑，那安全问题就不可回避。

GPT-5.4 的行为可通过开发者的输入进行精细化调节，以此适应不同应用场景的需求。

为了确保安全，开发者可以配置自定义的安全确认策略，根据任务风险等级设置不同的操作确认机制。

数据查询、代码编写等低风险任务设置成自动执行，资金操作、文件删改则必须人工确认，既能保证系统安全，又能提升工作流的执行效率。

在 OSWorld-Verified 基准测试中，GPT-5.4 实现了 75% 的成功率，超越人类基准（72.4%）的同时，大幅领先于前代 GPT-5.2 的 47.3% 水平，足以证明新模型在 PC 端任务场景中的实用和可靠。