Opus 4.7赢了Coding,Codex想赢一切腾讯科技
Anthropic新推Claude Opus 4.7,基准数据漂亮,社区口碑却翻车,沃顿教授直指其对非代码任务"降级偷懒"。同一天,OpenAI将Codex升级为可操作整台电脑、跨应用的超级工作台,将AI竞争推升至系统能力层。
4 月 16 日,Anthropic发布了Claude Opus 4.7。但这一次,Opus4.7模型并没有迎来“Coding之王”的一片赞叹声。
它的发布通稿里写着:在93 道代码任务基准上比Opus 4.6提升 13%,解决了 Opus 4.6 和 Sonnet 4.6 都搞不定的四道题,低思考档位的 4.7 已经大致等价于中等思考档位的 4.6。价格没涨,每百万输入 token 5 美元、输出 25 美元,和上一代持平。硬指标上,Anthropic仍然展示了一张压过 ChatGPT 5.4 和 Gemini 3.1 Pro的基准图。
漂亮的Benchmark之外,社区的反馈却不那么“漂亮”。
一边是过去数周里用户对 Opus 4.6 “变笨”的激烈抱怨;一边是 Anthropic在同一天亲口承认,Opus 4.7 仍打不过还在自家“关着”的传奇模型“Mythos Preview”。更微妙的是Opus4.7那种“更听话但更死板”的气质,以前针对旧模型写的、带一些模糊空间的 prompt,现在常常跑出意料之外的结果,开发者必须回头重写自己的提示词库。
沃顿商学院教授 Ethan Mollick 还提出了一个更尖的批评,他发现 Opus 4.7 的“自适应思考”机制存在偏见:它倾向于把非代码、非数学任务默认成“低努力”档,在分析、写作、研究这些场景里直接“偷懒”,产出质量甚至不如前一代。
Mollick感慨:AI 公司似乎陷入了一种“只有技术工作才是智力工作”的认知偏差。
风水轮流转。
就在同一天,老对手OpenAI 更新了Codex,并强调了一句新的Slogan,“Codex for (almost) everything”。
翻译过来,在Coding范式之下曾经被Anthropic“压着打”的OpenAI反击说:代码只是入口,我们现在要“卷”的是一台能操作你整台电脑、能看浏览器、能生成图像、能跨 Slack / Gmail / Notion 拉取上下文、能在后台并行开几条分身的超级工作台。而且还有一个扎心数据点:GPT系列的 coding 能力过去一年快速追上来了。
当Anthropic 继续沿着“最强coding模型”这条赛道继续加码,Anthropic在开发者心智里那道护城河,可能已经没那么宽了。
01价格账、鹈鹕和真实体感
产品层面,开发者每天面对的是两件具体的事:价格和实战手感。这两件事上,Opus 4.7 这次没拿到想象中的分数。
先说价格。 Opus 4.7 名义单价和 4.6 持平,但用了新分词器(tokenizer),同样文本生成的 token 量可能增加 1-1.35 倍;更高努力档也会消耗更多 token,账面没涨,实际账单可能会涨。相比之下外媒测算 Codex 综合成本大约是 Claude Code 的三分之一。对一个每天跑海量任务的工程团队,这笔账不用算两遍。
再看手感。 软件工程专家 Simon Willison 做了个极具传播力的测试:让 Opus 4.7 生成一张“骑自行车的鹈鹕”SVG,结果 4.7 连自行车架的基本形状都画砸了,甚至输给了在笔记本本地跑的小参数模型 Qwen。威利森调侃道,虽然这只是个玩笑,但它确实打破了“模型越贵、画画越好”的迷信。
在真实的编程环节,用户@SnazzyLabs总结出了一个精准的差异:Claude的Opus擅长“打磨”和抓住设计精髓,但在根据描述性文本执行具体任务时,GPT-5.4支持的Codex则表现得更出色 。
用户 @Stardustmemory 说得更重,Opus 4.7 在本该简洁的地方凭空制造复杂性,导致他甚至不想续订,因为 Codex 往往能更高效地重写 Opus 做的计划。
网友@Stardustmemory更是言辞犀利,他认为Opus 4.7在本该简洁的地方凭空制造复杂性,导致他甚至不想续订服务,因为Codex往往能更高效地重写Opus做的计划。
知名爆料人@apples_jimmy观察到,由于Anthropic此前对AGI(通用人工智能)概念的长期预告,导致用户对Opus 4.7的期望值过高,这种“炒作后的失望”在社交媒体上占据了约80%的负面评论。
网友@johnhelmuth_ 也认为,大家之所以觉得Opus 4.7表现平平,很大程度上是因为它没有像Opus 4.6发布时那样给人带来“开创性”的震撼。
02 coding之战,已经不是coding
Opus被行业内打的标签是“Coding的王者模型”,但是回到coding竞争,绕不开三个层次,今天这三层的权重正在剧烈变化。
第一层是模型能力层,谁的原始智力更强、谁对工程约束理解更深。这一层是 Anthropic 过去的护城河。
第二层是任务能力层,谁能端到端完成真实开发任务:读代码、改代码、调工具、跑测试、抓错、迭代,Claude Code 在过去半年是这一层的王者。
第三层是系统能力层,谁能把“写代码”嵌入整套工作流:接管浏览器、操作桌面、生成界面和图像、连工单、读设计稿、管并行分身。这一层至今为止还没有公认的赢家。
4 月 16 日,OpenAI 把 Codex 直接推到了第三层:它能在 macOS 上看屏、点击、打字;能同时开多条分身在后台跑活;内置浏览器,可以直接在网页元素上评论发指令;接上 gpt-image-1.5,边写代码边出 mockup、前端稿甚至游戏素材;一口气集成 111 个插件,连通 Slack、Gmail、Notion、GitHub。
这更像是一个“开发者操作系统”。
03 Coding和Agent
在所有 AI agent 可能落地的垂直场景里,coding是最快成熟、最先变现、最容易闭环的那一个。
代码任务天然可验证,编译过不过、测试过不过,对错近乎二元,这让 coding 成为 RL训练最理想的数据源,也让 agent 行为最容易被自动评估、自动迭代。有价值的 coding 天然是多步骤的
coding的买单方最清晰,一个工程师年成本几十万美元起,AI 替代或放大一部分工时,ROI账更容易算的过来。
coding的天花板,甚至超过了之前所有人的预期。互联网时代大家习惯拿 DAU来衡量科技公司的竞争地位,但在 agent 时代这个指标正在失去意义,如果一个 agent 在后台连开十条分身、连续跑三天,它贡献的价值不是十次DAU能衡量的。衡量单位正在从“日活”变成“任务完成量”、“托管工作流数”。而 coding 是最早出现这种价值计量方式的场景。
Open AI在这条赛道曾经出现了误判,Anthropic持续的增长曲线却证明了这条赛道的超高天花板。这也解释了为什么连一直优先搜索和 Workspace的Google,这个月都在 Gemini Code Assist 上频繁出动作,如果在 coding 这个入口掉队,未来整个 agent 生态可能都会把自己排除在外。


