最强编程王者PK：Opus 4.6封神，Codex 5.3速度满分新智元

硅谷的夜再次被点亮，OpenAI和Anthropic同日发布最新模型。正当开发者们沉浸在Codex 5.3的极致速度时，Arena和Epoch两大权威榜单却给出了意想不到的终局判决。

硅谷这波热闹，属实有点上头。

前脚Claude Opus 4.6刚刚夜袭发布，后脚OpenAI就祭出了GPT-5.3-Codex。

两大「编程王者」正面硬刚，到底谁的能力更强？社区现在还吵翻天～

今天，两大最硬核的权威机构Arena.ai和EpochAI，同时为Opus 4.6加冕！

Arena.ai：Opus 4.6全维度的屠榜

Arena.ai（前身是大家熟知的LMArena），这个被称为「大模型角斗场」的地方，迎来了新的霸主。

Claude Opus 4.6，在代码（Code）、文本（Text）、专家（Expert）三大竞技场，全部登顶第一！

代码竞技场：比前代Opus 4.5暴涨106分。

文本竞技场：得分1496，硬生生压了Gemini 3 Pro一头。

专家竞技场：领先第二名约50分，断层式领先。

这意味着什么？

意味着在数以万计的真实人类盲测中，Opus 4.6是那个让你最想点「赞」的模型。

它不是偏科生，它是真正的六边形战士。

在代码实测中，这次的Opus 4.6比4.5提升了106分，远超之前Opus 4.5对Sonnet 3.7的领先幅度。

Claude Opus 4.6自Claude 3 Opus以来首次在文本竞技场排名第一。

同时在关键文本类别中位列榜首：

Claude Opus 4.6在专家领域排名第一，领先优势达+49分。

专家排行榜采用了一个框架构建，该框架能识别出真实用户提出的最困难、最专业的提示。

有网友表示，能够在这三个领域同时拿下第一，是真正的SOTA，非常厉害。

有网友同时表示，这Opus 4.6拿下三冠王很厉害，但是真正对模型的考验是前沿数学能力。

这不，EpochAI的评测新鲜出炉！

EpochAI：啃下「数学硬骨头」

如果说Arena是大众评审，那EpochAI的Frontier Math就是「奥数竞赛」。

这里考的不是简单的加减乘除，而是人类尚未解决的数学难题。

Opus 4.6交出的答卷是：Tier1-3级别得分40%，Tier4（极难）级别得分21%。

这个成绩直接在统计学上追平了GPT-5.2(xhigh)。

这是Anthropic的模型第一次在这个只要有一点「智商欠费」就交白卷的榜单上，站到了最前沿。

在难度更高的第4级测试中，Opus 4.6获得 21%的得分，解决了48道题目中的10道。

该成绩同样与GPT-5.2（xhigh）的19%得分在统计上持平，仅次于 GPT-5.2（Pro）31%的得分。

物理、数学，这些曾经是AI禁区的地方，现在成了Opus 4.6的后花园。

Opus 4.6模型表现非常抢眼的领域，多项得分位居前列：

OTIS Mock AIME 2024-2025：得分高达94.4%，展现了极强的竞赛级数学解题能力。

GPQA Diamond：得分90.5%，这是一个针对专家级科学问题的困难测试。

FrontierMath：这是一个极其困难的数学前沿测试，Opus 4.6 得分为40.0%。在更难的 Tier 4 级别中，它获得了 20.8% 的分数，排名第 2。

在综合与推理评测中：

ARC AGI v1：得分94.0%，排名第1。这是评估模型通用人工智能（AGI）潜力的核心指标之一，专注于抽象推理和模式识别。

SimpleQA Verified：得分46.5%。该测试主要评估模型回答事实性问题的准确度（减少幻觉）。