马斯克说漏嘴:Claude Opus5T,Sonnet 1T量子位
哦豁,马斯克一个“不小心”,把Claude参数抖出来了???
长话短说:Sonnet 1T、Opus 5T。
起因是老马发帖表示,xAI的Colossus 2超算正在训练7个模型,其中最大的一款,参数量直接冲到了10万亿。
Imagine V2
2个1万亿(1T)参数的变体模型
2个1.5 万亿(1.5T)参数的变体模型
6万亿(6T)参数模型
10万亿(10T)参数模型
P.S. Colossus 2,就是老马巨硬计划(Macrohard)的一部分。据2025年8月披露的信息,Colossus 2已经安装了119台风冷式冷水机组,提供约200MW的冷却能力,足以支持约11万个GB200 NVL72 GPU。
按照当时规划,Colossus 2第一阶段部署11万个英伟达GB200 GPU,最终目标是超过55万个GPU,峰值功率需求预计超过1.1GW。
这次发推文,也是马斯克为数不多地对外公开Colossus超算的具体训练计划。
消息一出,网友开启好奇宝宝模式,马斯克也是心情不错的样子,看到提问也回复了不少。
比如有人问“训练一个10T模型,大概要花多久?”,马斯克说预训练阶段大约需要2个月。
哎,就有这么一段对话出现了。
Grok 4.2的参数量,仅为xAI目前在训最大模型的5%。也就是5000亿(500B)对比10万亿(10T),后者是前者20倍。
Grok 4.2真的是总参数量500B吗?还是说只是在一个更大的MoE里,激活的参数量是500B亿?
面对疑问,老马又亲自回应了:
总参数量就是0.5T(5000亿)。现在的Grok,参数量是Sonnet的一半、Opus的十分之一。以它的规模来说,是非常强的模型。
网友一眼瞄到显眼信息,这不就是说Sonnet是1T,Opus是5T。
于是有人追问:
纯好奇,你(马斯克)怎么知道Sonnet、Opus大小?
对此老马闭麦了,网友提出的点倒不无道理,“顶尖人才在这么几家公司间流动,似乎也没什么秘密能藏太久”。
Claude各版本参数,来自网友推测
自打Claude系列模型问世,Anthropic就一直严格保密参数规模,不管是Opus还是Sonnet,愣是一点没披露。
越不说,网友讨论得越起劲。
我们用AI总结了一下网友们分析讨论的不同版本的Claude参数规模。
你还别说,你还真别说。最新模型Claude 4.6 Sonnet ~1-2T、Claude 4.6 Opus ~1.5-2.5T/2-5T,还真和老马手滑泄露的“Sonnet1T、Opus5T”对上了。
具体来看网友都讨论出来了啥。
目前主流推测方法有四类:
推理成本与吞吐量反推法:模型推理成本与激活参数量呈近似线性关系,而总参数量则可通过架构类型和行业经验系数推算。
性能基准对标法:通过与已知参数的开源模型在标准化基准上的表现对比,推断闭源模型的参数规模。
内部文件泄露与传闻分析法:官方意外暴露的信息&一些小道消息。
架构特性分析法:通过对模型行为特性的观察,推断其采用的架构类型,进而缩小参数估计范围。
首先来看Claude 3系列,2024年3月发布,这是首个形成清晰产品矩阵的Claude系列,包含三个定位不同的版本。
小杯Haiku、中杯Sonnet以及大杯Opus,成本和性能依次递增。
对于它们的参数规模,LifeArchitect.ai创始人Alan D. Thompson曾给出估算:


