万字拆解AI瓶颈：下一个爆发点在“电网”华尔街日报

AI基础设施的军备竞赛正在将供应链压力从芯片本身向外蔓延，覆盖光学器件、电源半导体乃至数据中心外围的电网管理设备。在HBM短缺和算力扩张已被市场广泛定价之后，新一轮供应瓶颈正在更隐蔽的环节悄然成形。

周六，AI圈研究博主Chris Barber与知名匿名分析员@bubbleboi讨论了AI供应链瓶颈与基础设施问题，系统梳理了AI供应链各层级的紧张程度，并点名了多个尚未被市场充分认识的潜在爆发点。

在@bubbleboi的排序中，磷化铟（indium phosphide）相关的激光与光学器件已是"完全的灾难"，DRAM/HBM短缺持续恶化，而电源半导体虽然目前尚不构成瓶颈，却是他最看好的"下一个爆发"方向——尤其是数据中心外围的固态变压器市场。

磷化铟：当前供应链的“灾难级”瓶颈

磷化铟是他措辞最为激烈的一个环节。"磷化铟的情况非常非常非常糟糕，"@bubbleboi表示，"很多人还没意识到有多严重。"

问题的根源在于CPO（共封装光学）技术的推进对激光器提出了更高要求——更高功率意味着更大的芯片面积，更窄的线宽和更好的噪声性能同样推高了对磷化铟晶圆的需求。与此同时，磷化铟的加工链条——从矿石到晶体、再到外延片、最终到激光器印刷——每一个环节都处于严重供不应求的状态。

这一短缺正在重塑光收发器市场的格局。

传统上，每一代收发器（如400G、800G）在初期以EML（磷化铟单片集成调制器）为主，随后逐步向硅光子（SiPho）迁移以降低成本。但这一次，1.6T收发器几乎从一开始就由硅光子主导——原因正是EML供应的严重短缺，以及制造商将产能向利润率更高的连续波（CW）激光器倾斜。

DRAM与HBM：三家寡头全线爆满

内存是@bubbleboi排名第二的供应瓶颈。

他的核心判断是：全球只有三家公司能够生产DRAM——SK Hynix、三星和美光——三家均已满负荷运转，短期内没有新产能上线的可能。

围绕HBM4的技术路线之争，他认为市场过度解读了其中的戏剧性。SK Hynix选择台积电12纳米制程制造HBM4基础芯片，三星使用自研SF4X逻辑节点，而美光坚持沿用内部DRAM制程，导致进度落后。

但他认为这些差异对财务影响有限："三家都会以相当高的毛利率卖光所有产品，谁在乎呢？"他补充说，即便美光HBM4未能进入英伟达Rubin平台，也可以将产品卖给其他客户，或以高价出售普通DRAM。

他将DRAM和HBM视为同一类别，并表示相比NAND闪存，他更偏好DRAM，原因是NAND更容易出现供过于求的情况。

“电网保卫战”：AI尽头的固态变压器与功率半导体

相较于已经被市场高度关注的算力芯片内部竞争，分析师将最大的“想象空间”留给了数据中心之外的电力交付系统。

AI数据中心对电网构成了前所未有的挑战。当几万到十万张GPU在训练间隙停止计算、进行互联通信时，电网负载会发生剧烈的波动。“这对电网运营商来说是一个‘恶魔般的噩梦’（satanic nightmare）。”

访谈中披露了一个极具戏剧性的细节：

去年PyTorch团队甚至在代码中加入了一个名为“Power Plant No Blow Up（发电厂别爆炸）”的特殊标志。其作用是，当GPU不需要做数学运算时，强迫它以最大速度进行“垃圾计算”。

“假设你的芯片正常运行需要500瓦，不工作时本应降至200瓦。但现在不行，必须全程保持500瓦，因为我们不能让电网运营商生气。”负载的剧烈拉扯会反向传播并破坏电网稳定，这也是许多AI数据中心拿不到电力许可证的核心原因。

为了解决这一痛点，基于碳化硅（SiC）和氮化镓（GaN）等宽禁带材料的“固态变压器”正迎来产业拐点。传统变压器体积庞大且完全是被动器件，交付周期长达12到18个月；而固态变压器虽然昂贵，但可以通过晶体管进行动态“负载调节（Load regulation）”。 “你可以动态编程，确保两侧的电流和电压基本一致……电网运营商会更高兴，你也能拿到供电许可。”

分析师预测，这项技术将在未来36个月内起飞，相关功率半导体公司（如Wolfspeed以及部分从光伏逆变器转型的公司）虽然目前处于周期低谷甚至亏损，但在AI电力调节需求的驱动下，具备极大的重估弹性。

逻辑晶圆与先进封装：边际改善，但仍紧张

相比磷化铟和内存，@bubbleboi认为逻辑晶圆的情况在过去六个月有所改善。

台积电产能依然紧张，但三星先进逻辑产线的利用率已从接近零回升，英特尔也开始接受外部客户。

他认为先进封装（CoWoS、EMIB）的紧张程度将低于市场预期，部分原因是英特尔在马来西亚的产能正在扩张，且台积电更倾向于将洁净室空间用于毛利率更高的N3制程。

CPU短缺与另类加速器：被忽视的隐患

@bubbleboi将CPU列为"大问题"，认为其短缺程度超出市场认知。

AMD面临GPU与CPU争夺台积电产能的两难困境，ARM自身没有晶圆配额，而他认为唯一有能力填补缺口的是高通——因为安卓手机需求下滑导致高通在台积电有闲置产能，可以转产数据中心CPU。但他对高通能否成功持怀疑态度，"他们已经失败了三次"。

在另类加速器领域，他对Positron和Cerebras持正面看法，但对Cerebras有明确批评：仍在使用FP16而非FP4是"愚蠢的错误"，IO设计限制了KV缓存卸载能力，且封装良率可能仅在20%至40%之间。

对于Taalas，他认为其将权重硬编码进芯片层的工程设计"非常非常聪明"，可将芯片设计周期从一年以上压缩至两到三个月，且无需HBM或任何先进封装，成本极低。但他对其商业前提持怀疑态度——AI模型权重更新频率极高，而Taalas要求50%至90%的权重固定不变，"我不认为AI公司会接受这个前提"。

最后，当被问及“如果你是黄仁勋，你会试图锁定什么供应链”时，分析师的一句原话为目前的AI硬件竞争做出了注脚： “他已经锁定了所有东西的产能。我本来想说光纤，但他已经去跟康宁谈交易了。我认为这个人是神（the man is a god），他已经把能锁定的全都锁定了。”

以下是采访问答文字实录（由AI协助翻译）

Chris：三到五年后，哪些替代性加速器可能会承担非常大量的训练或推理任务？

@bubbleboi：训练方面，我认为它们基本上都不行。推理方面，我非常看好Positron和Cerebras，但原因截然不同。还有谁呢？MatX。问题是我没有足够的信息。所以它可能不错，但我对他们一无所知。所以简单回答就是Positron和Cerebras。还有Taalas，我不太相信他们的前提，但这很酷，我有点想为他们宣传一下，因为如果前提成立，那将非常惊人。但我认为AI领域的人不会容忍这个前提。是的，这些是我真正喜欢的三巨头，MatX在旁边，因为我不够了解。我仍在努力让他们同意和我谈谈。

Chris：你不同意的Taalas的前提是固定权重？

@bubbleboi：他们正在做的是使用上层掩模层来烧录权重。一旦你有了权重，就无法更改。鉴于AI模型变化如此之快，比如每两周就有GPT 5.5，然后是5.6。如果你和这些公司工作的人聊聊，模型内部在 constantly 变化。模型末尾有个十六进制数。每隔几周就有更新。权重在不断变化和微调。

Taalas表示他们支持微调。我认为他们的意思是，当前芯片支持对权重进行一些修改，但远未达到你想要的那么多。他们当前的芯片是三分之二硬编码权重，三分之一只是SRAM机器。他们能支持微调的原因是那三分之一是SRAM，你可以更改或微调一部分权重，或者做LoRA之类的事情。他们基本上是在跟客户说，你的模型硬编码越多，运行得就越快，但你需要做出权衡。在理想情况下，有人可以设计一个模型，其中90%的权重是硬编码的（我随便说的数字）。它会运行得超级快。然后10%用于LoRA或更新权重。我不知道是否有大客户会接受这种程度的限制。我认为不会。但Taalas背后的工程实际上非常非常聪明。

他们使用上层掩模层。现在的芯片大概有14层，姑且说是14或15层。他们用上层三分之一中的一层来编程和硬编码权重。所以你想一下，通常芯片设计最少需要三个月，通常更久，然后需要流片，再过五六个月芯片才能回来，然后还得验证。Taalas不得不为他们自己的编译器、验证栈和芯片设计制作了一堆定制EDA工具，他们声称一天之内就能完成一个新模型。最终目标是。目前大概需要一周。所以设计需要一周，然后因为他们只更改上层，其中一层，他们可以储存晶圆。所以如果你去台积电或任何晶圆厂，这在行业里很常见，你可以说，嘿，我希望你们把X数量的晶圆保持在70%的完成度，先别完成最后一部分，因为我们正在做研发之类的。所以Taalas的周转时间比我最初预期的要快得多。新设计需要一周，然后大概两个月。这是我的估计，肯定不是六个月。所以两个月内你就能拿回芯片并运行它。他们声称他们制作了一些非常聪明的Verilog编译器工具和线程仿真工具，与标准EDA工具对接，以很好地验证一切。所以后硅验证应该没问题，因为芯片的基础设施已经验证过了，你只是改变权重。他们把原本至少一年的流程从开始到结束，理论上缩短到了两三个月，这还不错。

从模型架构的角度来看，我更像一个硬件人。我不太懂模型架构。我努力想弄明白，好吧，如何实现大部分权重固定，只改变一部分权重，比如单层中的权重之类的。然后我发现了LoRA，我问了那些真正懂AI的人，他们告诉我，哦不，LoRA不能扩展之类的。这很蠢。只有失败者才用LoRA。但如果前提确实成立，如果他们找到一个愿意使用LoRA或其他算法的客户，其中很大一部分权重是固定的，并且我们会 constantly 服务这个模型，这样才经济，那么Taalas的经济效益将是惊人的。芯片非常便宜。它不需要任何HBM或任何类型的内存。不需要任何类型的先进封装。即使是PCB，他们在芯片到芯片通信上受到延迟限制，完全没有带宽限制。所以他们使用PCIe和CXL，他们目前的主要限制是他们的芯片上没有最新版本的CXL，显然CXL 3.0提供的一些功能会对他们有实质性的帮助。但他们目前也还好。所以你将拥有惊人的、不可思议的性能（在其他任何架构中都不可能实现），而且价格极其便宜。只是有这样一个限制：很大一部分权重，可能在50%到90%之间，需要是固定的，你不能更改它们。要更改它们，你将不得不扔掉所有或大部分芯片，然后等待两到三个月，而新设计的成本大约是25万美元。

拿Taalas的CEO来说。他在一次采访中说，新版本芯片的设计成本“相当于一台H100服务器”。假设你运营一个数据中心，用Taalas芯片服务某个模型，你决定扔掉所有Taalas芯片，因为模型需要更新。所以你必须注销这笔资本支出，付给Taalas额外的30到50万。最坏的情况是，他们在两三个月内为你制造新芯片，然后你部署它们。再说一次，没有内存问题。甚至没有PCB问题。你可以使用低质量的PCB材料，因为它们只是运行非常慢的PCIe。所以这可能行得通。我只是对模型了解不够，看不出它是否真能行得通。

Chris：在堆栈的不同层面中，你认为未来几年哪些最终会面临最严重的供应限制？

@bubbleboi：是的，几乎所有。如果你在一月或二月问我，我会给出截然不同的答案，但现在所有都受限。

Chris：为什么市场从去年九月左右开始对此疯狂？

@bubbleboi：我不明白这点。有时候市场真的很奇怪，我跟很多对冲基金的人聊，我会说，你们很聪明，为什么现在才意识到这个？很奇怪。

Chris：宏观观点是不是大家都开始明白了，好吧，超大规模企业的资本支出将继续增加，至少绝对值上会增长？

@bubbleboi：是的，宏观情况是人们不断地来回摇摆。我给你举个有趣的例子。有人告诉我，传统能源投资者都在做空Bloom，因为他们觉得，哦，Bloom太贵了，天然气涡轮机更便宜，这是个泡沫。我说，哥们，这是关于通电时间的问题。你们完全错过了重点。

Chris：他们不了解这类客户面临的限制。

@bubbleboi：我知道。你不明白人们为什么选择这个。不是因为更便宜。每兆瓦的经济性可能差很多。但你现在就能拥有它。如果你必须将数据中心项目推迟至少六个月，……我跟更多专注于AI和半导体的对冲基金聊过，他们说，哦，我们知道其他那些做空Bloom的能源对冲基金。为什么要自寻死路做空这个？金融世界里有很多奇怪的事情。所以我无法解释。

Chris：哪些其他层面最终会成为瓶颈？

@bubbleboi：磷化铟情况非常糟糕。简直不可思议。我不知道很多人会怎么办，但任何与磷化铟相关的事情都真的、真的、真的很糟糕。

磷化铟用于激光器和光学器件，因为硅无法产生光。人们仍然不明白情况有多糟，因为CPO对激光器的噪声性能提出了更高的要求。

Chris：比如Aixtron？

@bubbleboi：哦，是的。所以他们制造用于磷化铟生产的设备。他们某种程度上不是瓶颈，嗯，他们可能是，但他们正在制造更多的机器，而像Lumentum、Coherent和Sumitomo这些公司正在购买这些机器。我做多这些。更像是Lumentum和Coherent的产能问题。衬底领域，AXT、Sumitomo、IQE等等，这些才是瓶颈。

Chris：IQE是什么？

@bubbleboi：有家英国公司，我认为他们做外延。在这个磷化铟制造链中有很多名字。目前基本上都是一场灾难。

Chris：基本上就是没有足够的磷化铟供应全球？

@bubbleboi：是的，嗯，磷化铟矿目前我认为还好。但是将磷化铟加工成晶体，然后制成晶圆，然后在晶圆上做外延，再把激光器印制到晶圆上，所有这些，完全是一场灾难。因为CPO激光器的工作方式需要更高的功率，这意味着你的芯片尺寸必须显著增大，并且它们需要更窄的线宽和更好的噪声性能，这通常意味着你必须增大芯片尺寸。

这也是为什么SiPho和Tower Semi涨上天的部分原因。传统上，收发器世界的工作方式是，从EML开始，它基本上就是一个单一的 monolithic 磷化铟芯片，包含调制器（用于上下摆动光）和连续波激光器，都在同一个磷化铟芯片上。由于物理原因，EML的性能总是优于硅光。通常，在每一代收发器（如400G或800G）推出的一两年后，人们开始转向SiPho以节省成本。你设法让SiPho的性能足够好，然后省钱，因为现在你不再购买大的EML，而是购买一个更小的连续波激光器，然后把它放进SiPho模块里进行调制。