CerebrasIPO：深度绑定OpenAI华尔街日报

Cerebras的故事突然变顺了。几年前，它还是一家用“整片晶圆做芯片”的激进AI硬件公司，技术足够大胆，但商业化一直不够确定；现在，快推理成为大模型厂商愿意付溢价的方向，OpenAI又签下750MW推理算力合作，Cerebras站到了IPO窗口前。

SemiAnalysis分析师Myron Xie在14日发布的一份研究报告把核心变化概括得很直接：“过了某个智能阈值之后，开发者更偏好更快的Token，而不是更聪明的Token。” 这句话解释了Cerebras估值逻辑的转向：它不一定要在所有AI算力场景里击败GPU，但只要“高交互速度”成为可收费产品，它的晶圆级架构就有了用武之地。

这也是Cerebras最迷人的地方。WSE-3把44GB SRAM、计算核心和片上互联塞进整片晶圆，带来21PB/s级别的内存带宽，推理速度可以达到传统HBM加速器难以触及的区间。但同一套架构也带来限制：SRAM容量不够大，片外I/O只有150GB/s，冷却、供电、封装都高度定制，服务超大模型和长上下文时会越来越吃力。

OpenAI是Cerebras的最大机会，也把风险集中到了一个客户身上。双方协议对应750MW推理算力，OpenAI还有额外1.25GW选项；Cerebras披露的剩余履约义务达到246亿美元。但这笔交易同时绑定了10亿美元工作资本贷款、接近免费行权的认股权证，以及高强度数据中心交付压力。IPO投资人真正要问的，不是“晶圆芯片酷不酷”，而是：快Token的溢价，能不能覆盖Cerebras的结构性成本和单一客户风险。

Cerebras押中的不是“总吞吐”，而是“交互速度”

过去AI推理硬件的主线，是每张GPU、每个机柜能吐出多少Token。对云厂商和模型厂商来说，总吞吐意味着单位成本，意味着能服务更多用户。

但用户行为正在把另一条曲线推到前台：tokens/sec/user，也就是单个用户拿到输出的速度。

OpenAI、Anthropic都在把同一模型拆成不同服务档位：fast、priority、standard、batch。用户愿不愿意为更快响应付钱，已经不只是产品经理的猜测。Opus 4.6 fast曾以约6倍价格换取2.5倍交互速度，后来速度优势降到约1.75倍；即便如此，高速模式仍是开发者愿意付费的SKU。SemiAnalysis自身4月AI支出一度年化达到1000万美元，其中80%花在Opus 4.6 fast上。

这说明一个市场变化：当模型能力足够可用，等待时间就会变成生产力瓶颈。对写代码、调用工具、连续迭代的agentic workflow来说，慢几秒不是体验问题，而是工作流被打断。

Cerebras的优势正好在这里。它不是靠更多HBM堆容量，而是靠片上SRAM极高带宽，把低batch、小并发、高交互速度的decode场景做得非常快。换句话说，GPU像一辆能拉很多人的大巴，Cerebras更像为了少数乘客高速直达而设计的跑车。

WSE-3不是“大号GPU”，它是一整片晶圆

Cerebras的核心产品WSE，是把整片晶圆当成一颗芯片，而不是切割成几十、上百颗独立die。

WSE-3采用台积电N5工艺，由12×7、共84个相同步进区域组成。每片晶圆上有约97万个核心，其中90万个启用。晶圆面积的一半给SRAM，另一半给计算核心。这个设计的关键，是计算和存储都留在同一片硅上，尽量避免数据离开芯片、离开封装。

参数很夸张：

▪︎SRAM容量：44GB

▪︎SRAM带宽：21PB/s

▪︎对外I/O：150GB/s

▪︎公开营销口径FP16算力：125PFLOPs

▪︎按8:1非结构化稀疏折算后的dense FP16算力：约15.6PFLOPs

这组数字要分开看。21PB/s内存带宽是Cerebras最强的地方；15.6PFLOPs dense FP16算力也不低，但如果按单位硅面积衡量，并不像宣传口径那么惊人。125PFLOPs来自稀疏假设，材料里把这种算法调侃为“Feldman’s Formula”，对应的是把dense算力乘以8。

真正的分界线在内存类型。GPU、TPU、Trainium这类主流AI加速器把模型权重和KV Cache放在HBM里；Cerebras把它们尽量放进SRAM。SRAM快、延迟低，但单位bit成本高，容量密度低。

44GB SRAM放在单芯片世界里很大。可和HBM比，它又不大。单个HBM3E 12-Hi堆栈就有36GB；当前一颗高端GPU或TPU封装常见8堆栈，对应288GB，是WSE-3 SRAM容量的6.5倍。

这就是Cerebras的基本交换：用容量换速度。

晶圆赢在低算术强度decode，输在大模型和长上下文

Cerebras最适合的任务，是低算术强度、内存带宽受限的decode阶段。

大模型推理里，很多kernel并不是缺算力，而是缺内存带宽。GPU的Tensor Core可能很强，但如果权重和KV Cache喂不上来，算力就会饿着。Cerebras把大量SRAM铺在晶圆上，数据离计算单元更近，带宽足够高，batch=1这类低并发decode场景能跑出传统HBM系统很难达到的交互速度。

材料中的理论对比很清楚：如果看一个batch=1、算术强度约为2的decode kernel，NVIDIA GPU和Groq LPU理论上只能实现几十到数百TFLOPs量级；Cerebras WSE-3在理想条件下可以接近完整15.625PFLOPs dense FP16算力。

这就是“快Token”的硬件基础。

但只要模型变大、上下文变长，44GB SRAM就开始紧张。推理系统的内存要装三类东西：

▪︎模型权重；

▪︎并发请求所需KV Cache；

▪︎长上下文带来的更大KV Cache。

agentic coding这类工作负载尤其麻烦。样本测算中，约43.2万条请求、约800亿Token显示，典型P50输入序列长度约为96.3k Token，而不是Cerebras产品假设中的64k；接近50%的请求超过128k，这已经达到Cerebras公开端点目前支持的最大上下文窗口。

这意味着，如果未来模型服务走向256k、1M上下文，Cerebras要么压缩KV Cache，要么上更多晶圆，要么牺牲交互速度和经济性。

冷却和BOM说明：这不是便宜算力

CS-3系统不是把一颗芯片插进服务器那么简单。

每台CS-3包括一个WSE-3 engine block、外围计算和I/O模块、两个机械泵、12个3.3kW电源模块，以及液冷系统。单片WSE-3本身功耗约25kW，放在46,225平方毫米晶圆上，平均热流密度约50W/cm²，还没算热点。

风冷却不现实。普通3D均热板如果放大到21.5厘米见方，会遇到毛细极限，工质回流跟不上。Cerebras只能做定制液冷结构：冷板、晶圆、柔性连接器、PCB组成四层“三明治”，散热歧管接在冷板背后。硅和PCB热膨胀系数不同，传统封装会裂，所以连接、预压、装配工具都要定制。

数据中心侧也被改变。GB200 NVL72参考设计的设施侧流量约1.5 LPM/kW，而WSE-3在25kW下约100 LPM，相当于4 LPM/kW，接近3倍。这要求更大的泵、更粗的管、更大的CDU和更高流量的快接头。CS-4若能把机架级流量拉回1.5—1.7 LPM/kW，才更接近标准化基础设施。

成本同样不轻。CS-3加KVSS CPU节点的BOM估算，在去年四季度内存涨价前约35万美元/机架；计入最新内存价格后约45万美元/机架。KVSS是双路AMD CPU节点，配6TB DDR5 RDIMM，用于KV Cache offload。

有意思的是，最贵的不只是台积电N5晶圆。单片N5晶圆名义成本约2万美元，但Cerebras还要为每批晶圆做额外上层金属mask，用来绕过缺陷tile；Vicor定制供电模块也很贵，材料中估计其价值量接近台积电内容；冷却、封装、组装大量自研，外围还有12个100GbE Xilinx FPGA承担类似NIC的角色，把Cerebras自有I/O转换成以太网。

所以Cerebras并不是“便宜芯片替代GPU”。它是在一个特定推理速度区间，用复杂系统换极致交互速度。

SRAM扩展停滞，是Cerebras绕不过去的节点问题

Cerebras最依赖SRAM，但SRAM scaling正在失速。

三代WSE的SRAM容量变化很能说明问题：

▪︎WSE-1，台积电16nm，18GB SRAM；

▪︎WSE-2，7nm，40GB SRAM，代际提升2.2倍；

▪︎WSE-3，5nm，44GB SRAM，只提升约10%。

同样从7nm走到5nm，逻辑晶体管数量增长约50%，但SRAM容量几乎没怎么动。往后更难。N3E相对N5在SRAM上基本没有缩小，N2及以后也继续受限。

对Cerebras来说，这比对GPU厂商更致命。GPU可以继续叠HBM、扩封装、靠互联池化内存；Groq这类SRAM机器也可以用hybrid bonding在Z方向堆更多SRAM tile。Cerebras是整片晶圆，平面面积已经用满。如果增加SRAM面积，就要牺牲计算面积。

CS-4的路线也暴露了这一点：仍使用N5基础的WSE-3，但提高功耗、提升时钟和计算持续能力，SRAM容量不变。

可选方向是晶圆对晶圆混合键合，把DRAM晶圆或更多存储叠到WSE上。Cerebras确实在探索这种路径。但晶圆级整体芯片的热机械问题、bond wave问题，都比常规hybrid bonding更难。它过去解决过很多不寻常问题，但下一步仍然是硬仗。

最大硬伤是I/O：晶圆很大，出口却很窄

WSE-3片外带宽只有150GB/s，也就是1.2Tb/s。相对它的计算规模和片上带宽，这个出口太小。