OpenAI最强GPT-5.6发布新智元

6/27/2026

OpenAI首次启用太阳、大地、月亮命名,全新GPT-5.6正式登场。旗舰Sol编程屠榜,只当了17天第一的Claude Mythos 5,被一夜拉下王座。

OpenAI今夜「三连发」!

就在刚刚,GPT-5.6 Sol、Terra、Luna同时登场。

太阳、大地、月亮。GPT系列第一次用天文学给模型命名。

▪︎超大杯旗舰Sol,直接刷爆了AI编程能力的天花板;

▪︎大杯Terra,上一代旗舰的水平,但价格只要一半;

▪︎中杯Luna,每百万token输入只要一刀,量大管饱。

OpenAI用来掀翻Mythos的旗舰,第一次交到了——极少数人手上。

是的,GPT-5.6暂时只向约20家受信合作伙伴开放API和Codex访问,普通用户短期内无缘。

官方的说法是,模型将会在「未来几周」逐步放开。

OpenAI太阳系,登场

此前,Anthropic用Mythos(神话)和Fable(寓言)命名,指向的是AI与人类叙事传统的关系。而OpenAI则选了天体。

Sol是拉丁语中的「太阳」,也是罗马神话里驾驭金色战车、每日横跨天穹的太阳神。

它对标最复杂的推理和研究场景,适合长链条、多步骤的硬任务。

输入5美元/百万token,输出30美元/百万token。

Terra是拉丁语的「大地」,也常被作为Earth的拉丁名和文学化称呼。

它瞄准日常开发和知识工作,用更低的成本拿到上一代旗舰级的能力。

输入2.5美元/百万token,输出15美元/百万token。

Luna是拉丁语的「月亮」,夜空中最近、最亮、最容易触及的天体。

它为高吞吐场景而生,分类、摘要、批量处理,追求的是量大管饱。

输入1美元/百万token,输出6美元/百万token。

根据OpenAI官方的解释:「命名的原则是数字标识代际,Sol/Terra/Luna标识持久的能力层级,可以按各自节奏独立迭代。」

也就是说,以后升级到了GPT-6,旗舰可能依然叫Sol,Luna还是对应最小的那个。

你不用猜,就知道自己在用的是什么水平的模型。

Sol交卷,Mythos让座

OpenAI这次重点秀的能力有三个:编程、生物、网络安全。

编程方面,他们刷的是目前最能衡量AI编程能力的基准之一——Terminal-Bench 2.1。

它考的是代码规划、工具调用、多轮迭代纠错这样完整的命令行工作流,是一个模型能不能像真正的工程师那样端到端地完成复杂项目。

结果显示,Sol在ultra模式下跑出了91.9%,拿下了所有已公开模型的最高分。

作为对比,Anthropic两周前刚发布的Claude Mythos 5在同一基准上是88.0%,Fable 5是84.3%。

Sol关掉ultra只用max模式也有88.8%,单凭这一个数字就已经超过了Anthropic两个最新旗舰。

网络安全,则是OpenAI在博客里着墨最多的方向。

GPT-5.6 Sol在ExploitBench上的表现,几乎打平了Anthropic之前强到不敢发的Mythos Preview,但只消耗了约三分之一的输出token。

在UC Berkeley与OpenAI等实验室联合开发的ExploitGym基准上,Sol、Terra、Luna三个模型都展示了随推理能力增加而持续提升的安全能力曲线。

而在CTF(夺旗赛)评估中,Sol的命中率更是高达96.7%,几乎触顶。

生物学方向,OpenAI跑的是一个专门评估长链条基因组学和定量生物学分析能力的基准——GeneBench v1。

在这里,Sol只需很少的token,就能完爆上一代的GPT-5.5。

Scroll for more