CerebrasIPO:深度绑定OpenAI华尔街日报

5/14/2026

Cerebras的故事突然变顺了。几年前,它还是一家用“整片晶圆做芯片”的激进AI硬件公司,技术足够大胆,但商业化一直不够确定;现在,快推理成为大模型厂商愿意付溢价的方向,OpenAI又签下750MW推理算力合作,Cerebras站到了IPO窗口前。

SemiAnalysis分析师Myron Xie在14日发布的一份研究报告把核心变化概括得很直接:“过了某个智能阈值之后,开发者更偏好更快的Token,而不是更聪明的Token。” 这句话解释了Cerebras估值逻辑的转向:它不一定要在所有AI算力场景里击败GPU,但只要“高交互速度”成为可收费产品,它的晶圆级架构就有了用武之地。

这也是Cerebras最迷人的地方。WSE-3把44GB SRAM、计算核心和片上互联塞进整片晶圆,带来21PB/s级别的内存带宽,推理速度可以达到传统HBM加速器难以触及的区间。但同一套架构也带来限制:SRAM容量不够大,片外I/O只有150GB/s,冷却、供电、封装都高度定制,服务超大模型和长上下文时会越来越吃力。

OpenAI是Cerebras的最大机会,也把风险集中到了一个客户身上。双方协议对应750MW推理算力,OpenAI还有额外1.25GW选项;Cerebras披露的剩余履约义务达到246亿美元。但这笔交易同时绑定了10亿美元工作资本贷款、接近免费行权的认股权证,以及高强度数据中心交付压力。IPO投资人真正要问的,不是“晶圆芯片酷不酷”,而是:快Token的溢价,能不能覆盖Cerebras的结构性成本和单一客户风险。

Cerebras押中的不是“总吞吐”,而是“交互速度”

过去AI推理硬件的主线,是每张GPU、每个机柜能吐出多少Token。对云厂商和模型厂商来说,总吞吐意味着单位成本,意味着能服务更多用户。

但用户行为正在把另一条曲线推到前台:tokens/sec/user,也就是单个用户拿到输出的速度。

OpenAI、Anthropic都在把同一模型拆成不同服务档位:fast、priority、standard、batch。用户愿不愿意为更快响应付钱,已经不只是产品经理的猜测。Opus 4.6 fast曾以约6倍价格换取2.5倍交互速度,后来速度优势降到约1.75倍;即便如此,高速模式仍是开发者愿意付费的SKU。SemiAnalysis自身4月AI支出一度年化达到1000万美元,其中80%花在Opus 4.6 fast上。

这说明一个市场变化:当模型能力足够可用,等待时间就会变成生产力瓶颈。对写代码、调用工具、连续迭代的agentic workflow来说,慢几秒不是体验问题,而是工作流被打断。

Cerebras的优势正好在这里。它不是靠更多HBM堆容量,而是靠片上SRAM极高带宽,把低batch、小并发、高交互速度的decode场景做得非常快。换句话说,GPU像一辆能拉很多人的大巴,Cerebras更像为了少数乘客高速直达而设计的跑车。

WSE-3不是“大号GPU”,它是一整片晶圆

Cerebras的核心产品WSE,是把整片晶圆当成一颗芯片,而不是切割成几十、上百颗独立die。

WSE-3采用台积电N5工艺,由12×7、共84个相同步进区域组成。每片晶圆上有约97万个核心,其中90万个启用。晶圆面积的一半给SRAM,另一半给计算核心。这个设计的关键,是计算和存储都留在同一片硅上,尽量避免数据离开芯片、离开封装。

参数很夸张:

▪︎SRAM容量:44GB

▪︎SRAM带宽:21PB/s

▪︎对外I/O:150GB/s

▪︎公开营销口径FP16算力:125PFLOPs

▪︎按8:1非结构化稀疏折算后的dense FP16算力:约15.6PFLOPs

这组数字要分开看。21PB/s内存带宽是Cerebras最强的地方;15.6PFLOPs dense FP16算力也不低,但如果按单位硅面积衡量,并不像宣传口径那么惊人。125PFLOPs来自稀疏假设,材料里把这种算法调侃为“Feldman’s Formula”,对应的是把dense算力乘以8。

真正的分界线在内存类型。GPU、TPU、Trainium这类主流AI加速器把模型权重和KV Cache放在HBM里;Cerebras把它们尽量放进SRAM。SRAM快、延迟低,但单位bit成本高,容量密度低。

44GB SRAM放在单芯片世界里很大。可和HBM比,它又不大。单个HBM3E 12-Hi堆栈就有36GB;当前一颗高端GPU或TPU封装常见8堆栈,对应288GB,是WSE-3 SRAM容量的6.5倍。

这就是Cerebras的基本交换:用容量换速度。

晶圆赢在低算术强度decode,输在大模型和长上下文

Cerebras最适合的任务,是低算术强度、内存带宽受限的decode阶段。

大模型推理里,很多kernel并不是缺算力,而是缺内存带宽。GPU的Tensor Core可能很强,但如果权重和KV Cache喂不上来,算力就会饿着。Cerebras把大量SRAM铺在晶圆上,数据离计算单元更近,带宽足够高,batch=1这类低并发decode场景能跑出传统HBM系统很难达到的交互速度。

材料中的理论对比很清楚:如果看一个batch=1、算术强度约为2的decode kernel,NVIDIA GPU和Groq LPU理论上只能实现几十到数百TFLOPs量级;Cerebras WSE-3在理想条件下可以接近完整15.625PFLOPs dense FP16算力。

这就是“快Token”的硬件基础。

但只要模型变大、上下文变长,44GB SRAM就开始紧张。推理系统的内存要装三类东西:

▪︎模型权重;

▪︎并发请求所需KV Cache;

▪︎长上下文带来的更大KV Cache。

agentic coding这类工作负载尤其麻烦。样本测算中,约43.2万条请求、约800亿Token显示,典型P50输入序列长度约为96.3k Token,而不是Cerebras产品假设中的64k;接近50%的请求超过128k,这已经达到Cerebras公开端点目前支持的最大上下文窗口。

这意味着,如果未来模型服务走向256k、1M上下文,Cerebras要么压缩KV Cache,要么上更多晶圆,要么牺牲交互速度和经济性。

冷却和BOM说明:这不是便宜算力

CS-3系统不是把一颗芯片插进服务器那么简单。

每台CS-3包括一个WSE-3 engine block、外围计算和I/O模块、两个机械泵、12个3.3kW电源模块,以及液冷系统。单片WSE-3本身功耗约25kW,放在46,225平方毫米晶圆上,平均热流密度约50W/cm²,还没算热点。

风冷却不现实。普通3D均热板如果放大到21.5厘米见方,会遇到毛细极限,工质回流跟不上。Cerebras只能做定制液冷结构:冷板、晶圆、柔性连接器、PCB组成四层“三明治”,散热歧管接在冷板背后。硅和PCB热膨胀系数不同,传统封装会裂,所以连接、预压、装配工具都要定制。

数据中心侧也被改变。GB200 NVL72参考设计的设施侧流量约1.5 LPM/kW,而WSE-3在25kW下约100 LPM,相当于4 LPM/kW,接近3倍。这要求更大的泵、更粗的管、更大的CDU和更高流量的快接头。CS-4若能把机架级流量拉回1.5—1.7 LPM/kW,才更接近标准化基础设施。

成本同样不轻。CS-3加KVSS CPU节点的BOM估算,在去年四季度内存涨价前约35万美元/机架;计入最新内存价格后约45万美元/机架。KVSS是双路AMD CPU节点,配6TB DDR5 RDIMM,用于KV Cache offload。

有意思的是,最贵的不只是台积电N5晶圆。单片N5晶圆名义成本约2万美元,但Cerebras还要为每批晶圆做额外上层金属mask,用来绕过缺陷tile;Vicor定制供电模块也很贵,材料中估计其价值量接近台积电内容;冷却、封装、组装大量自研,外围还有12个100GbE Xilinx FPGA承担类似NIC的角色,把Cerebras自有I/O转换成以太网。

所以Cerebras并不是“便宜芯片替代GPU”。它是在一个特定推理速度区间,用复杂系统换极致交互速度。

SRAM扩展停滞,是Cerebras绕不过去的节点问题

Cerebras最依赖SRAM,但SRAM scaling正在失速。

三代WSE的SRAM容量变化很能说明问题:

▪︎WSE-1,台积电16nm,18GB SRAM;

▪︎WSE-2,7nm,40GB SRAM,代际提升2.2倍;

▪︎WSE-3,5nm,44GB SRAM,只提升约10%。

同样从7nm走到5nm,逻辑晶体管数量增长约50%,但SRAM容量几乎没怎么动。往后更难。N3E相对N5在SRAM上基本没有缩小,N2及以后也继续受限。

对Cerebras来说,这比对GPU厂商更致命。GPU可以继续叠HBM、扩封装、靠互联池化内存;Groq这类SRAM机器也可以用hybrid bonding在Z方向堆更多SRAM tile。Cerebras是整片晶圆,平面面积已经用满。如果增加SRAM面积,就要牺牲计算面积。

CS-4的路线也暴露了这一点:仍使用N5基础的WSE-3,但提高功耗、提升时钟和计算持续能力,SRAM容量不变。

可选方向是晶圆对晶圆混合键合,把DRAM晶圆或更多存储叠到WSE上。Cerebras确实在探索这种路径。但晶圆级整体芯片的热机械问题、bond wave问题,都比常规hybrid bonding更难。它过去解决过很多不寻常问题,但下一步仍然是硬仗。

最大硬伤是I/O:晶圆很大,出口却很窄

WSE-3片外带宽只有150GB/s,也就是1.2Tb/s。相对它的计算规模和片上带宽,这个出口太小。

Scroll for more