Claude最新Sonnet:性价比王炸量子位

2/18/2026

春节才是真正的大模型战场,全世界参与的那种。

大年初二,Anthropic 史上最强 Sonnet——Claude Sonnet 4.6 发布。

不难看出,计算机操作是这次更新的主打卖点。

Anthropic 表示,对填写复杂 Excel、网页清单等任务,Sonnet 4.6 已经接近人类水平。

其他方面也是全方位升级:编码、长上下文推理、Agent 规划、知识型工作、设计……Beta 阶段还支持 1M 上下文。

定价依然跟 Sonnet 4.5 一样,免费用户也能用。

性价比简直高到离谱。

创业者 Alex Finn 体验后表示「难以置信」:

在大多数 Agent 任务上,Sonnet 4.6 的表现跟 Opus 系列差不多好,速度还更快,价格只要 1/5。

还不只一个人这么说。

Anthropic 表示,内测用户对 Sonnet 4.6 的喜爱程度,已经超过了超大杯 Opus 4.5。

史上最强 Sonnet

计算机操作能力,可以说是这次 Sonnet 4.6 最亮眼的部分了,Anthropic 也在这部分花了不少笔墨。

虽然跟最熟练的人类工作者比还有差距,但进步速度真的恐怖。

看下面这张图 ——

四个月一次的高频率更新下,性能曲线依然保持着不错的上升势头。

当然,计算机操作能力提升,也意味着如果模型被 prompt injection,风险会更大。

Anthropic 也想到了这一点,专门给用户们塞了颗定心丸:

Sonnet 4.6 的安全等级相比前代 Sonnet 4.5 有显著改进,表现跟 Opus 4.6 差不多。

事实上,计算机操作只是冰山一角,Claude Sonnet 4.6 在各类 Benchmark 上都有提升。

具体细节都在下面这张表,一个大杯模型,智能却直逼超大杯 Opus 系列。

从 Benchmark 上还可以看到 Claude 这边出现了「倒反天罡」的情况。

在金融分析和办公室任务这两项测试中,Sonnet 4.6 用一骑绝尘的数值,拿下了 SOTA,力压历代 Opus。

用户的反馈更能说明问题。

在 Claude Code 的早期内测中,Anthropic 发现,在 59% 的场景下,用户更倾向于选择 Sonnet 4.6(而不是 Opus 4.5)。

大家评价说,Sonnet 4.6 明显更少出现过度设计和「偷懒」,指令遵循方面表现更好。

同时,虚假成功声明更少,幻觉更少,多步骤任务的执行也更加稳定。

对了,这次 Sonnet 4.6 还提供 100 万 token 的上下文,能装下几十篇研究论文。最重要的是,在这么大规模的上下文中,Sonnet 4.6 依然保持了相当领先的推理水平。

这一点在 Vending-Bench Arena 上特别明显。

这是个测试模型在长时间跨度内模拟运营一家企业能力的 Benchmark,引入了竞争机制,不同模型需要相互对抗,争取更高利润。

在这个测试中,Sonnet 4.6 采用了一种新策略:前 10 个模拟月份大幅投入产能建设,支出明显高于竞争对手,但在后期迅速开始想办法盈利。

这种转向时机的把握,帮助它在最终成绩上明显领先。

除此之外,用户还反馈称前端代码生成能力有提升。

Sonnet 4.6 生成的视觉输出更加精致,布局、动画和设计感都比之前的模型好,达到可用于生产环境的质量所需的迭代轮次也减少了。

Scroll for more