英伟达放弃GPU上LPU：OpenAI第一个吃螃蟹量子位

世界第一也着急！据悉，在即将开幕的 3 月 16-19 日圣何塞 GTC 大会上，黄仁勋将发布一套全新的 AI 推理系统，核心是一颗专为推理优化的新芯片，而芯片的首位大客户已敲定 —— 刚刚完成 1100 亿美元巨额融资的 OpenAI。

更引人关注的是，这款芯片的底层架构并非英伟达自研，而是来自原 Groq 团队打造的 LPU（语言处理单元）架构。这意味着，英伟达在核心 AI 算力产品线上，首次大规模引入外部架构设计。

这一 “不自造” 策略的背后，是去年震动行业的一笔交易：英伟达斥资约 200 亿美元，完成对 Groq 核心技术与团队的 “acqui-hire”（收购式招聘），如今这枚推理芯片，正是该笔投资的首次落地。典型的黄仁勋式打法 —— 买下成熟方案快速部署，追求极致 ROI（投资回报率）。

是 LPU，而非 GPU：推理场景的架构革命

据《华尔街日报》披露，英伟达这款新推理计算系统将整合 Groq 设计的芯片，与 OpenAI 最新融资文件中的规划形成呼应：OpenAI 将扩大与英伟达的长期合作，包括使用 3GW 的专用推理算力（dedicated inference capacity），以及在 Vera Rubin 系统上获得 2GW 的训练算力，而这部分 “专用推理算力” 被普遍认为将基于该新芯片。

英伟达选择 LPU 而非延续 GPU 架构，核心原因在于推理场景的适配差异：

GPU 的短板：GPU 通常将大量模型参数存放在外部 HBM（高带宽内存）中，计算核心与内存间需频繁数据搬运。训练阶段可通过大规模并行摊薄搬运成本，但在推理尤其是 decode（逐 token 生成）阶段，批量变小、延迟敏感，系统瓶颈更多来自数据移动而非算力本身；

LPU 的优势：Groq 的 LPU 架构采用高密度片上 SRAM，将数据 “贴着算力跑”，极大缩短数据路径，从架构层面降低延迟与能耗，更适配低延迟推理场景，理论最高速度可比 GPU 快 100 倍。

随着 Agent 应用普及，AI 算力结构正从 “训练优先” 转向 “推理优先”，推理不再是训练后的补充环节，而是规模更大、频率更高的长期负载。英伟达将 LPU 纳入核心产品线，正是对这一算力重心转移的直接回应，也解释了其为何高价收购 Groq 团队，甚至引入创始人 Jonathan Ross（谷歌 TPU 之父）等核心成员。

推理战场狼烟起：英伟达面临全方位冲击

过去一年，Agent 应用的爆发推动算力需求结构剧变，市场重心向推理转移，成本成为核心变量，众多客户开始 “训练用英伟达，推理找替代”，英伟达的推理芯片业务迎来多重冲击：

海外巨头分流：OpenAI 与 Cerebras 签署数十亿美元计算合作协议，Cerebras 首席执行官 Andrew Feldman 直言其芯片在特定场景下快于英伟达 GPU；Anthropic 更多依赖 AWS 与 Google Cloud 的自研芯片；Meta 与 AMD 达成大规模订单，联合优化推理 GPU 架构以减少对英伟达的依赖；

国产替代崛起：DeepSeek 将 DeepSeek V4 早期访问权限独家授予华为，并完成昇腾平台模型迁移；寒武纪等国产厂商也在推理赛道加速突围。据 Bernstein Research 预测，2026 年华为在中国 AI 芯片市场份额可能达 50%，英伟达则或将降至个位数；

自研潮夹击：谷歌持续深耕 TPU，亚马逊计划用 Trainium 芯片支持 Agent 等高频推理场景；国内字节、阿里、百度等也纷纷下场自研 AI 芯片，行业趋势清晰 —— 推理成为主战场，客户开始分散风险。

之所以出现这一局面，核心在于 GPU 与推理场景的适配矛盾：训练追求 “大规模并行” 和总体吞吐量，推理则侧重 “单 token 速度” 和稳定响应。推理的 pre-fill（处理用户输入）和 decode（逐 token 生成）两个阶段中，决定用户体验的 decode 阶段，瓶颈在于频繁的数据存取与搬运，而 GPU 为并行设计，LPU 则针对性调整了存储与计算路径，更贴合推理负载。《华盛顿邮报》评论称，这是 AI 浪潮以来，英伟达首次在核心硬件层面面临架构挑战。

尽管英伟达仍占据全球 GPU 市场超 90% 份额，Hopper、Blackwell 及即将登场的 Rubin 系列仍是训练主力，但面对推理需求暴涨，这枚 LPU 芯片成为其守住市场的关键答案。

One more thing：GTC 还将有 “前所未见” 的新发布

除了这款神秘 LPU 推理芯片，黄仁勋此前已官宣，今年 GTC 大会还将发布 “世界前所未见” 的新系列产品。外界普遍猜测，新品可能包括 Rubin 系列新一代 GPU、Feynman 系列全新架构芯片，甚至是备受期待的跳票消费级显卡。