智能体火爆,CPU成为新的“AI瓶颈”华尔街日报

4/9/2026

随着AI智能体和强化学习(RL)的爆发式增长,原本在AI浪潮初期被边缘化的通用处理器(CPU),正遭遇前所未有的算力挤兑,成为继GPU之后新的基础设施瓶颈。

近期,随着各大科技巨头财报陆续落地,市场对AI基础设施的关注点正在发生微妙转移。投资者不仅紧盯GPU的订单与交付,更开始寻找AI应用落地带来的新增长极。

4月8日,知名半导体分析机构SemiAnalysis首席分析师Dylan Patel在一次深度访谈中指出,由于AI工作负载的范式正在从简单的文本生成向复杂的“智能体(Agents)”和“强化学习(RL)”演进,CPU正面临极其严重的产能短缺。

在AI发展的头几年,核心算力需求几乎全被GPU占据。正如Dylan Patel所言:“在AI的头几年,CPU确实严重滞后……负载很轻。你发一个字符串,它回一个字符串,简单的推理,对CPU需求不大。”

然而,这一局面在过去几个月里发生了颠覆性的变化,核心驱动力正是以OpenAI o1为代表的具备逻辑推理和智能体属性的新一代模型。

智能体与强化学习推升CPU需求

模型不再仅仅是“生成文本”,而是开始自主执行任务、调用数据库并自我验证,这让CPU的工作量呈指数级上升。

Dylan Patel给出了一个极具冲击力的数据:

“就在最近六个月吧,代码智能体的收入在很短的时间内从几十亿美金涨到了超过100亿美金。这些智能体的任务时长也大幅增加:比如Claude Code可以连续工作六七个甚至七八个小时……它可以自己去ping、去抓取、以智能体方式自主工作。这也需要大量的CPU。”

与此同时,强化学习的训练循环变得越来越紧密。未来的AI不仅要做数学题,还要在物理模拟器中导航,这要求生成器(模型)生成的每一步都需要在CPU集群上进行高频验证。

“这个循环在过去几年变得越来越紧……在过去六个月里,我们看到整个云市场的CPU都跑光了。”

云厂商疯狂扩容,微软“卖空”CPU已致GitHub不稳

市场需求的骤增直接导致了云端算力的枯竭。为了满足头部AI实验室的需求,大型云厂商甚至牺牲了其他业务的稳定性。Dylan Patel直言:

“我不知道你们最近有没有经常和GitHub打交道,它真的很不稳定……那是因为微软把他们所有闲置的CPU都卖给了别人。”

这种短缺正在逼迫企业进行极端的工程迁移。据透露,OpenAI此前几乎只在x86 CPU上运行,但为了获得算力,他们直接向亚马逊要存量处理器。

“亚马逊有大量的ARM CPU,于是他们把整个栈都移植了过去——只要能拿到CPU,到哪里我都愿意移植我的代码库。”

关于CPU的市场价格,Dylan Patel说道:

“CPU的利润率没那么高,但正在攀升,因为Intel和AMD在涨价而且供应紧张。”

从数据来看,扩容正在全行业上演。“亚马逊安装的CPU服务器数量,今年比去年同比增长了3倍。到处都没有容量了。”

此外,为了不让昂贵的GPU闲置等待,客户必须保持CPU“热池”持续运行,这种商业逻辑进一步放大了对CPU的需求。

硬件淘金热蔓延:存储暴涨,3nm产能全线告急

算力的短缺已经沿着产业链迅速向上传导,不仅英特尔和AMD发出了涨价通知,甚至连面向C端的PC市场也受到波及(如苹果Mac mini脱销)。

Dylan Patel用一句极其生动的话形容当下的硬件市场:

“通常,出现淘金热的时候,连拿着坏镐头的人也能卖掉他的镐头。”

他补充了市场高度关注的存储和芯片制造环节的涨价数据:

“内存价格在过去一年涨了4倍,而且还会继续涨。现在SSD价格也涨了3-4倍,而且至少还会再涨60%。”

更令市场担忧的是晶圆代工产能的挤压。AI芯片正在吸干台积电的最先进制程产能:

“AI正在买走所有3纳米和2纳米的产能……现在所有AI芯片都在往3纳米迁移:AMD的MI350系列、亚马逊和谷歌的Trainium 3和TPU v7、英伟达的Rubin——所有这些都在3纳米上。”

这甚至迫使苹果、高通等移动端巨头向下迁移,或者让英伟达将部分订单转移至三星。

以下是访谈的文字记录:

大家好。很高兴请到Dylan。我第一次看他视频是一次采访,他谈到:虽然我们有CPU,但我们要讨论Neo clouds以及它们为什么有存在的权利。那对我来说非常有意思,因为今天的主题正是:当智能体(agents)已经到来时,新的基础设施基元是什么?你当时把Neo clouds与超大规模云服务商的不同之处,以及它们为什么应该存在,阐述得非常清楚。能跟我们分享一下吗?

Dylan Patel:

当然。在AI时代,超大规模云服务商的动作有点慢,对吧?谷歌、亚马逊、微软,进入AI领域都有点慢。于是一批全新的公司冒了出来,而且出现了一个新的低门槛——亚马逊、微软、谷歌构建的那些复杂软件,很多其实并不需要。事实上,那些复杂软件反而拖慢了AI的发展:它们有自定义网络,但那些网络对AI并不太友好,更关注可靠性和存储流量,而不是像在网络上做all-reduce之类的事情。

所以这些大型云厂商、超大规模云服务商有很多东西,Neo clouds可以直接跳过,然后构建专注、优化的解决方案,并提供更低的成本,因为它们的开销要低得多——这些Neo clouds里没有两万个谷歌的项目经理坐在会议室里(尽管有些Neo clouds已经开始招聘谷歌的项目经理,从而放慢了速度)。它们在能源上行动迅速,在搭建GPU集群上行动迅速,所以它们能够开辟出一块市场。那是早期的那些。自那以后,出现了很多模仿者或追随者——很多没有成功,很多正在成功。这实际上就是一场比谁最有能力的战斗。

那么,是不是所有——我想大概有200家左右这样的Neo clouds,对吗?——你看到它们之间有差异化吗?是不是有些只是在复制最早那批的软件栈?有些在做别的事情?你有没有看到这些Neo clouds中哪些做法成功、哪些不太成功?

Dylan Patel:

是的,有很多因素能区分它们。我们有一个叫"Cluster Max"的东西,给所有Neo clouds排名。我们会测试各种东西:可观测性、可靠性、网络、安全、管理、编排等等,这些都不一样。比如,有人会测试他们的GPU在用户空闲时是否工作正常——那是主动健康检查还是被动健康检查?风扇转速是否合适?功耗是否正确?节点是否有问题?网络是否有问题?性能是否达标?有各种各样的检查和测试,因为GPU是不可靠的。还有GPU之上的软件类型:很多人一开始只做裸金属,比如微软与CoreWeave的最初合同全是裸金属——你只需SSH进去,微软自己搭建环境。

但随着发展,人们想要更多:有人想要安装Slurm,那很简单;有人想要安装Kubernetes,稍微难一点,但仍然很简单;有人想要在Kubernetes上安装Slurm,因为这样更容易推送作业等等。现在开始有人做托管Ray服务之类的东西,用于强化学习(RL)。所以有一类Neo clouds在构建这些东西,而另一类Neo clouds则说"我不在乎,我只建GPU,然后以裸金属方式出租"。成本上也有差异:拥有好软件的Neo clouds往往收费更高,某种程度上又回到了传统模式——谷歌、微软、亚马逊有好软件,收费也高得多。而且你会看到很多这类云公司开始尝试推出推理服务和其他东西。

类似地,顺着这个思路,我就想说到CPU了。历史上,我们有客户要求像OpenClaw那样的东西——有些人说"我需要我的沙箱或CPU盒子长时间运行,你能给我一个5美元像Hetzner那样的产品吗?"我说不行,因为那是裸金属机器,成本很低。但当你提供更大的软件产品时,成本就会更高,所以很难与之竞争。所以我猜在Neo clouds里也一样,正如你提到的,裸金属的销售成本比那些往软件方向走的要低。

我只是好奇它们为什么有存在的权利——这有点像我们做的事情的类比。但真正的问题是,你提到了这一点,我们正在思考的方向是:CPU成了新的瓶颈。以前每个投资人、每个我聊过的人都只谈GPU。现在你出了一份大报告讲CPU,我心里想"好的,没错,谢谢你"。所以你报告里说今年会是瓶颈。那么请从TDR层面高屋建瓴地告诉我们:为什么CPU现在是瓶颈?你看到了什么?

Scroll for more