万字拆解AI瓶颈:下一个爆发点在“电网”华尔街日报
AI基础设施的军备竞赛正在将供应链压力从芯片本身向外蔓延,覆盖光学器件、电源半导体乃至数据中心外围的电网管理设备。在HBM短缺和算力扩张已被市场广泛定价之后,新一轮供应瓶颈正在更隐蔽的环节悄然成形。
周六,AI圈研究博主Chris Barber与知名匿名分析员@bubbleboi讨论了AI供应链瓶颈与基础设施问题,系统梳理了AI供应链各层级的紧张程度,并点名了多个尚未被市场充分认识的潜在爆发点。
在@bubbleboi的排序中,磷化铟(indium phosphide)相关的激光与光学器件已是"完全的灾难",DRAM/HBM短缺持续恶化,而电源半导体虽然目前尚不构成瓶颈,却是他最看好的"下一个爆发"方向——尤其是数据中心外围的固态变压器市场。
磷化铟:当前供应链的“灾难级”瓶颈
磷化铟是他措辞最为激烈的一个环节。"磷化铟的情况非常非常非常糟糕,"@bubbleboi表示,"很多人还没意识到有多严重。"
问题的根源在于CPO(共封装光学)技术的推进对激光器提出了更高要求——更高功率意味着更大的芯片面积,更窄的线宽和更好的噪声性能同样推高了对磷化铟晶圆的需求。与此同时,磷化铟的加工链条——从矿石到晶体、再到外延片、最终到激光器印刷——每一个环节都处于严重供不应求的状态。
这一短缺正在重塑光收发器市场的格局。
传统上,每一代收发器(如400G、800G)在初期以EML(磷化铟单片集成调制器)为主,随后逐步向硅光子(SiPho)迁移以降低成本。但这一次,1.6T收发器几乎从一开始就由硅光子主导——原因正是EML供应的严重短缺,以及制造商将产能向利润率更高的连续波(CW)激光器倾斜。
DRAM与HBM:三家寡头全线爆满
内存是@bubbleboi排名第二的供应瓶颈。
他的核心判断是:全球只有三家公司能够生产DRAM——SK Hynix、三星和美光——三家均已满负荷运转,短期内没有新产能上线的可能。
围绕HBM4的技术路线之争,他认为市场过度解读了其中的戏剧性。SK Hynix选择台积电12纳米制程制造HBM4基础芯片,三星使用自研SF4X逻辑节点,而美光坚持沿用内部DRAM制程,导致进度落后。
但他认为这些差异对财务影响有限:"三家都会以相当高的毛利率卖光所有产品,谁在乎呢?"他补充说,即便美光HBM4未能进入英伟达Rubin平台,也可以将产品卖给其他客户,或以高价出售普通DRAM。
他将DRAM和HBM视为同一类别,并表示相比NAND闪存,他更偏好DRAM,原因是NAND更容易出现供过于求的情况。
“电网保卫战”:AI尽头的固态变压器与功率半导体
相较于已经被市场高度关注的算力芯片内部竞争,分析师将最大的“想象空间”留给了数据中心之外的电力交付系统。
AI数据中心对电网构成了前所未有的挑战。当几万到十万张GPU在训练间隙停止计算、进行互联通信时,电网负载会发生剧烈的波动。“这对电网运营商来说是一个‘恶魔般的噩梦’(satanic nightmare)。”
访谈中披露了一个极具戏剧性的细节:
去年PyTorch团队甚至在代码中加入了一个名为“Power Plant No Blow Up(发电厂别爆炸)”的特殊标志。其作用是,当GPU不需要做数学运算时,强迫它以最大速度进行“垃圾计算”。
“假设你的芯片正常运行需要500瓦,不工作时本应降至200瓦。但现在不行,必须全程保持500瓦,因为我们不能让电网运营商生气。”负载的剧烈拉扯会反向传播并破坏电网稳定,这也是许多AI数据中心拿不到电力许可证的核心原因。
为了解决这一痛点,基于碳化硅(SiC)和氮化镓(GaN)等宽禁带材料的“固态变压器”正迎来产业拐点。传统变压器体积庞大且完全是被动器件,交付周期长达12到18个月;而固态变压器虽然昂贵,但可以通过晶体管进行动态“负载调节(Load regulation)”。 “你可以动态编程,确保两侧的电流和电压基本一致……电网运营商会更高兴,你也能拿到供电许可。”
分析师预测,这项技术将在未来36个月内起飞,相关功率半导体公司(如Wolfspeed以及部分从光伏逆变器转型的公司)虽然目前处于周期低谷甚至亏损,但在AI电力调节需求的驱动下,具备极大的重估弹性。
逻辑晶圆与先进封装:边际改善,但仍紧张
相比磷化铟和内存,@bubbleboi认为逻辑晶圆的情况在过去六个月有所改善。
台积电产能依然紧张,但三星先进逻辑产线的利用率已从接近零回升,英特尔也开始接受外部客户。
他认为先进封装(CoWoS、EMIB)的紧张程度将低于市场预期,部分原因是英特尔在马来西亚的产能正在扩张,且台积电更倾向于将洁净室空间用于毛利率更高的N3制程。
CPU短缺与另类加速器:被忽视的隐患
@bubbleboi将CPU列为"大问题",认为其短缺程度超出市场认知。
AMD面临GPU与CPU争夺台积电产能的两难困境,ARM自身没有晶圆配额,而他认为唯一有能力填补缺口的是高通——因为安卓手机需求下滑导致高通在台积电有闲置产能,可以转产数据中心CPU。但他对高通能否成功持怀疑态度,"他们已经失败了三次"。
在另类加速器领域,他对Positron和Cerebras持正面看法,但对Cerebras有明确批评:仍在使用FP16而非FP4是"愚蠢的错误",IO设计限制了KV缓存卸载能力,且封装良率可能仅在20%至40%之间。
对于Taalas,他认为其将权重硬编码进芯片层的工程设计"非常非常聪明",可将芯片设计周期从一年以上压缩至两到三个月,且无需HBM或任何先进封装,成本极低。但他对其商业前提持怀疑态度——AI模型权重更新频率极高,而Taalas要求50%至90%的权重固定不变,"我不认为AI公司会接受这个前提"。
最后,当被问及“如果你是黄仁勋,你会试图锁定什么供应链”时,分析师的一句原话为目前的AI硬件竞争做出了注脚: “他已经锁定了所有东西的产能。我本来想说光纤,但他已经去跟康宁谈交易了。我认为这个人是神(the man is a god),他已经把能锁定的全都锁定了。”
以下是采访问答文字实录(由AI协助翻译)
Chris:三到五年后,哪些替代性加速器可能会承担非常大量的训练或推理任务?
@bubbleboi:训练方面,我认为它们基本上都不行。推理方面,我非常看好Positron和Cerebras,但原因截然不同。还有谁呢?MatX。问题是我没有足够的信息。所以它可能不错,但我对他们一无所知。所以简单回答就是Positron和Cerebras。还有Taalas,我不太相信他们的前提,但这很酷,我有点想为他们宣传一下,因为如果前提成立,那将非常惊人。但我认为AI领域的人不会容忍这个前提。是的,这些是我真正喜欢的三巨头,MatX在旁边,因为我不够了解。我仍在努力让他们同意和我谈谈。
Chris:你不同意的Taalas的前提是固定权重?
@bubbleboi:他们正在做的是使用上层掩模层来烧录权重。一旦你有了权重,就无法更改。鉴于AI模型变化如此之快,比如每两周就有GPT 5.5,然后是5.6。如果你和这些公司工作的人聊聊,模型内部在 constantly 变化。模型末尾有个十六进制数。每隔几周就有更新。权重在不断变化和微调。
Taalas表示他们支持微调。我认为他们的意思是,当前芯片支持对权重进行一些修改,但远未达到你想要的那么多。他们当前的芯片是三分之二硬编码权重,三分之一只是SRAM机器。他们能支持微调的原因是那三分之一是SRAM,你可以更改或微调一部分权重,或者做LoRA之类的事情。他们基本上是在跟客户说,你的模型硬编码越多,运行得就越快,但你需要做出权衡。在理想情况下,有人可以设计一个模型,其中90%的权重是硬编码的(我随便说的数字)。它会运行得超级快。然后10%用于LoRA或更新权重。我不知道是否有大客户会接受这种程度的限制。我认为不会。但Taalas背后的工程实际上非常非常聪明。
他们使用上层掩模层。现在的芯片大概有14层,姑且说是14或15层。他们用上层三分之一中的一层来编程和硬编码权重。所以你想一下,通常芯片设计最少需要三个月,通常更久,然后需要流片,再过五六个月芯片才能回来,然后还得验证。Taalas不得不为他们自己的编译器、验证栈和芯片设计制作了一堆定制EDA工具,他们声称一天之内就能完成一个新模型。最终目标是。目前大概需要一周。所以设计需要一周,然后因为他们只更改上层,其中一层,他们可以储存晶圆。所以如果你去台积电或任何晶圆厂,这在行业里很常见,你可以说,嘿,我希望你们把X数量的晶圆保持在70%的完成度,先别完成最后一部分,因为我们正在做研发之类的。所以Taalas的周转时间比我最初预期的要快得多。新设计需要一周,然后大概两个月。这是我的估计,肯定不是六个月。所以两个月内你就能拿回芯片并运行它。他们声称他们制作了一些非常聪明的Verilog编译器工具和线程仿真工具,与标准EDA工具对接,以很好地验证一切。所以后硅验证应该没问题,因为芯片的基础设施已经验证过了,你只是改变权重。他们把原本至少一年的流程从开始到结束,理论上缩短到了两三个月,这还不错。
从模型架构的角度来看,我更像一个硬件人。我不太懂模型架构。我努力想弄明白,好吧,如何实现大部分权重固定,只改变一部分权重,比如单层中的权重之类的。然后我发现了LoRA,我问了那些真正懂AI的人,他们告诉我,哦不,LoRA不能扩展之类的。这很蠢。只有失败者才用LoRA。但如果前提确实成立,如果他们找到一个愿意使用LoRA或其他算法的客户,其中很大一部分权重是固定的,并且我们会 constantly 服务这个模型,这样才经济,那么Taalas的经济效益将是惊人的。芯片非常便宜。它不需要任何HBM或任何类型的内存。不需要任何类型的先进封装。即使是PCB,他们在芯片到芯片通信上受到延迟限制,完全没有带宽限制。所以他们使用PCIe和CXL,他们目前的主要限制是他们的芯片上没有最新版本的CXL,显然CXL 3.0提供的一些功能会对他们有实质性的帮助。但他们目前也还好。所以你将拥有惊人的、不可思议的性能(在其他任何架构中都不可能实现),而且价格极其便宜。只是有这样一个限制:很大一部分权重,可能在50%到90%之间,需要是固定的,你不能更改它们。要更改它们,你将不得不扔掉所有或大部分芯片,然后等待两到三个月,而新设计的成本大约是25万美元。
拿Taalas的CEO来说。他在一次采访中说,新版本芯片的设计成本“相当于一台H100服务器”。假设你运营一个数据中心,用Taalas芯片服务某个模型,你决定扔掉所有Taalas芯片,因为模型需要更新。所以你必须注销这笔资本支出,付给Taalas额外的30到50万。最坏的情况是,他们在两三个月内为你制造新芯片,然后你部署它们。再说一次,没有内存问题。甚至没有PCB问题。你可以使用低质量的PCB材料,因为它们只是运行非常慢的PCIe。所以这可能行得通。我只是对模型了解不够,看不出它是否真能行得通。
Chris:在堆栈的不同层面中,你认为未来几年哪些最终会面临最严重的供应限制?
@bubbleboi:是的,几乎所有。如果你在一月或二月问我,我会给出截然不同的答案,但现在 所有 都受限。
Chris:为什么市场从去年九月左右开始对此疯狂?
@bubbleboi:我不明白这点。有时候市场真的很奇怪,我跟很多对冲基金的人聊,我会说,你们很聪明,为什么现在才意识到这个?很奇怪。
Chris:宏观观点是不是大家都开始明白了,好吧,超大规模企业的资本支出将继续增加,至少绝对值上会增长?
@bubbleboi:是的,宏观情况是人们不断地来回摇摆。我给你举个有趣的例子。有人告诉我,传统能源投资者都在做空Bloom,因为他们觉得,哦,Bloom太贵了,天然气涡轮机更便宜,这是个泡沫。我说,哥们,这是关于通电时间的问题。你们完全错过了重点。
Chris:他们不了解这类客户面临的限制。
@bubbleboi:我知道。你不明白人们为什么选择这个。不是因为更便宜。每兆瓦的经济性可能差很多。但你现在就能拥有它。如果你必须将数据中心项目推迟至少六个月,……我跟更多专注于AI和半导体的对冲基金聊过,他们说,哦,我们知道其他那些做空Bloom的能源对冲基金。为什么要自寻死路做空这个?金融世界里有很多奇怪的事情。所以我无法解释。
Chris:哪些其他层面最终会成为瓶颈?
@bubbleboi:磷化铟情况非常糟糕。简直不可思议。我不知道很多人会怎么办,但任何与磷化铟相关的事情都真的、真的、真的很糟糕。
磷化铟用于激光器和光学器件,因为硅无法产生光。人们仍然不明白情况有多糟,因为CPO对激光器的噪声性能提出了更高的要求。
Chris:比如Aixtron?
@bubbleboi:哦,是的。所以他们制造用于磷化铟生产的设备。他们某种程度上不是瓶颈,嗯,他们可能是,但他们正在制造更多的机器,而像Lumentum、Coherent和Sumitomo这些公司正在购买这些机器。我做多这些。更像是Lumentum和Coherent的产能问题。衬底领域,AXT、Sumitomo、IQE等等,这些才是瓶颈。
Chris:IQE是什么?
@bubbleboi:有家英国公司,我认为他们做外延。在这个磷化铟制造链中有很多名字。目前基本上都是一场灾难。
Chris:基本上就是没有足够的磷化铟供应全球?
@bubbleboi:是的,嗯,磷化铟矿目前我认为还好。但是将磷化铟加工成晶体,然后制成晶圆,然后在晶圆上做外延,再把激光器印制到晶圆上,所有这些,完全是一场灾难。因为CPO激光器的工作方式需要更高的功率,这意味着你的芯片尺寸必须显著增大,并且它们需要更窄的线宽和更好的噪声性能,这通常意味着你必须增大芯片尺寸。
这也是为什么SiPho和Tower Semi涨上天的部分原因。传统上,收发器世界的工作方式是,从EML开始,它基本上就是一个单一的 monolithic 磷化铟芯片,包含调制器(用于上下摆动光)和连续波激光器,都在同一个磷化铟芯片上。由于物理原因,EML的性能总是优于硅光。通常,在每一代收发器(如400G或800G)推出的一两年后,人们开始转向SiPho以节省成本。你设法让SiPho的性能足够好,然后省钱,因为现在你不再购买大的EML,而是购买一个更小的连续波激光器,然后把它放进SiPho模块里进行调制。


