老黄All in物理AI量子位

刚刚，英伟达CEO黄仁勋穿着鳄鱼皮夹克，在全球最大消费电子展CES 2026上发布AI新品。

这是五年来，英伟达首次来到CES却没有发游戏显卡，态度很明确：全力搞AI。

全力搞出来的结果也让围观群众直呼：竞争对手如何追上英伟达？

下一代Rubin架构GPU推理、训练性能分别是Blackwell GB200的5倍和3.5倍（NVFP4数据格式）。

除此之外，老黄还带来了五大领域的全新发布，包括：

面向Agentic AI的NVIDIA Nemotron模型家族

面向物理AI的NVIDIA Cosmos平台

面向自动驾驶开发的全新NVIDIA Alpamayo模型家族

面向机器人领域的NVIDIA Isaac GR00T

面向生物医学的NVIDIA Clara

同时，英伟达宣布持续向社区开源训练框架以及多模态数据集。其中数据集包括10万亿语言训练token、50万条机器人轨迹数据、45.5万个蛋白质结构、100TB车辆传感器数据。

这次的核心主题，直指物理AI。

用网友的话来说：

这是英伟达将护城河从芯片层进一步拓展到全栈平台层（模型+数据+工具）的体现，通过这种方式可以持续拉动更多GPU与基础设施投入，并显著增强用户与生态的锁定。

值得一提的是，咱国产开源模型又双叒被cue到了。

老黄在演讲开篇便提及了DeepSeek，Kimi K2、Qwen也出现在PPT展示页上。

正式推出Vera Rubin NVL72

老黄正式推出英伟达下一代AI数据中心的机柜架构Vera Rubin，披露架构细节。

六大核心组件共同构成Vera Rubin NVL72机架：Vera CPU、Rubin GPU、NVLink 6 switch、ConnectX-9 SuperNIC、BlueField-4数据处理单元（DPU）、Spectrum-6 Ethernet switch。

在NVFP4数据类型下，Rubin GPU推理性能可达50 PFLOPS，是Blackwell GB200的5倍；NVFP4训练性能为35 PFLOPS，是Blackwell的3.5 倍。

为支撑这些计算能力，每颗Rubin GPU封装了8组HBM4内存，提供288GB容量和22 TB/s的带宽。

随着主流大模型转向MoE架构，模型得以相对高效地进行规模扩展。然而，这些专家模块之间的通信，对节点间带宽提出了极高要求。

Vera Rubin引入了用于规模内扩展网络的NVLink 6。

它将单GPU的互连带宽提升至3.6 TB/s（双向）。每颗NVLink 6交换芯片提供28 TB/s的带宽，而每个Vera Rubin NVL72机架配备9颗这样的交换芯片，总规模内带宽达到260 TB/s。

NVIDIA Vera CPU集成了88个定制的Olympus Arm核心，采用英伟达称为“spatial multi-threading”设计，最多可同时运行176个线程。

用于将Vera CPU与Rubin GPU进行一致性连接的NVLink C2C互连，其带宽提升了一倍，达到1.8 TB/s。每颗Vera CPU可寻址最多1.5 TB的SOCAMM LPDDR5X内存，内存带宽最高可达1.2 TB/s。

为将Vera Rubin NVL72机架扩展为每组8个机架的DGX SuperPod，英伟达推出了一对采用共封装光学（CPO）的Spectrum-X以太网交换机，均基于Spectrum-6芯片构建。

每颗Spectrum-6芯片提供102.4 Tb/s的带宽，英伟达基于该芯片推出了两款交换机。

SN688提供409.6 Tb/s的总带宽，支持512个800G以太网端口或2048个200G端口。

SN6810则提供102.4 Tb/s的带宽，可配置为128 个800G或512个200G以太网端口。

这两款交换机均采用液冷设计，英伟达表示，与不具备硅光子技术的硬件相比，它们在能效、可靠性和运行时间方面表现更优。

随着上下文窗口扩展到数百万token，英伟达还指出，存储AI模型交互历史的键值缓存（KV cache）相关操作，已成为推理性能的瓶颈。

此前黄仁勋曾表态：没有HBM，就没有AI超算。

为突破这一限制，英伟达推出新硬件BlueField-4 DPU，构建了一个新的内存层级，称为推理上下文内存存储平台（Inference Context Memory Storage Platform）。

英伟达表示，这一存储层旨在实现键值缓存数据在AI基础设施中的高效共享与复用，从而提升系统响应速度和吞吐能力，并实现Agentic AI架构可预测、能效友好的规模扩展。