一文读懂GPT-5.5:更大、更贵、更智能腾讯科技

4/24/2026

当地时间4月23日,OpenAI正式发布新一代旗舰模型GPT-5.5,官方将其定位为“面向真实工作的全新智能层级”,也是迈向全新计算机工作方式的重要一步。

这次发布核心关注的有两点:

一是效率层面的突破:同等延迟下,模型更大了,速度却没慢。GPT-5.5上下文窗口达到100万Token,但它不是GPT-5.4简单能力升级,而是在效率上做到了同等延迟下的更高智能。

二是GPT-5.5 在训练过程中,参与了自身推理基础设施的优化。简而言之,AI第一次学会帮自己调参数。

在测试复杂命令行工作流的Terminal-Bench 2.0中,GPT-5.5得分82.7%,Claude Opus4.7的69.4%超过13个百分点;在测试AI独立操作真实电脑的OSWorld-Verified中,成功率78.7%,超越人类基线;在测试跨44种职业知识工作的GDPval中,84.9%的任务达到或超过行业专家水平。

不过,GPT-5.5的价格也明显涨了。

API定价为每百万Token输入5美元、输出30美元,是GPT-5.4(每百万Token输入2.50美元、输出15美元)的两倍,但官方强调GPT-5.5完成相同任务所需Token数量大幅减少,综合成本未必显著上升。GPT-5.5ProAPI定价为每百万Token输入30美元、输出180美元。批量处理和弹性定价享受半价优惠,优先处理为标准价格的2.5倍。

在ChatGPT中,GPT-5.5以“GPT-5.5 Thinking”形式上线,逐步取代此前版本。

一个新增的小设计是:模型开始思考前会先给出一段思路概述,用户可以在执行过程中随时插话,调整方向。

如果用一句话概括GPT-5.5的意义:过去的模型是能力的集合,GPT-5.5更接近一个会规划、会检查、会持续推进的工作系统。

01 84.9%的任务,达到专业人士水准

GPT-5.5与各竞品在Terminal-Bench2.0、GDPval、OSWorld-Verified等核心基准测试中的对比

先看评估模型在真实职业场景中的表现。OpenAI用了一个叫“GDPval”的基准测试,它要求模型完成一整套职业任务。测试覆盖44种职业场景,包括财务建模、法律分析、数据科学报告、运营规划等等。

结果显示:GPT-5.5在84.9%的任务中达到或超过行业专业人士水平。作为对比,GPT-5.4是83.0%,ClaudeOpus 4.7是80.3%,Gemini 3.1 Pro 只有 67.3%。

这种差距不止体现在总分上。电子表格建模任务中,GPT-5.5内部测试拿到88.5%;投资银行级别的建模任务同样领先前代。早期测试者的反馈也挺一致:GPT-5.5Pro 的回答在全面性、结构性和实用性上比 GPT-5.4 Pro 有明显提升,商业、法律、教育和数据科学领域尤其明显。

光看数字容易麻木,OpenAI这次干脆掀开自家工位给你看。

OpenAI表示,公司内部超过85%的员工每周都在用Codex,覆盖财务、传播、市场、产品、数据科学等多个部门。传播团队拿它分析了六个月的演讲邀约数据,搭起了一套自动化分级流程;财务团队用它审阅了24,771份K-1税务表格、合计71,637 页,比去年提前两周完工;市场拓展团队靠自动化周报生成,每人每周省下5到10小时。

这不是实验室demo,已经变成一种工作日常。

02 最强自主编程模型

OpenAI称,GPT-5.5目前是其最强的自主编程模型。

在Terminal-Bench2.0上(测试复杂命令行工作流,需要规划、迭代与工具协调),GPT-5.5得分82.7%,对比GPT-5.4的75.1%,提升幅度接近8个百分点,同时Token消耗更少。在SWE-BenchPro上(评估真实GitHub问题的一次性解决能力),GPT-5.5得分58.6%。在内部Expert-SWE评测上(长周期编程任务,中位人工完成时间约20小时),GPT-5.5同样超越GPT-5.4。

Terminal-Bench 2.0和Expert-SWE散点图

Codex在GPT-5.5的驱动下,已经能够从一句话的提示词出发,独立完成从代码生成、功能测试到视觉调试的完整开发流程。

OpenAI官方展示的演示案例显示,太空任务应用基于NASA真实轨道数据构建,支持3D交互操控,轨道力学模拟达到真实物理精度;地震追踪器接入实时数据源并完成可视化,说明模型已具备调用外部API、处理动态数据并实时渲染的完整能力。

对于使用反馈方面。Every创始人兼 CEO Dan Shipper 讲了一段经历:他之前遇到过一个上线后的bug,自己调了好几天没搞定,最后只能请公司最强的工程师出手,重写了一部分系统。GPT-5.5 出来后,他做了个实验——把模型放回bug 还没修的那个状态,看它能不能自己得出和工程师一样的方案。GPT-5.4 做不到,GPT-5.5做到了。他评价:"这是我用过的第一个真正具备概念清晰度的编程模型"。

一位英伟达工程师的评价更直白:"失去GPT-5.5的访问权限,感觉就像截肢"。

Cursor联合创始人兼CEO MichaelTruell对此的补充是:GPT-5.5比GPT-5.4更聪明、更坚韧,在复杂长时任务中能坚持更久而不提前停下——而这恰恰是工程工作最需要的。

03 知识工作:AI第一次真正能“用”电脑

在OSWorld-Verified测试中(测试模型能否独立操作真实计算机环境),GPT-5.5成功率78.7%,高于GPT-5.4的75.0%,也优于ClaudeOpus 4.7的78.0%。

这不是截图分析,而是真正的屏幕操控:看到界面、点击、输入、在多个工具之间切换,直到任务完成。GPT-5.5让人第一次感受到,AI可以真正与你共同使用同一台电脑。

财务建模演示视频

Scroll for more