马斯克站台谷歌第8代TPU量子位

看完谷歌最新发布的第8代TPU，我终于理解马斯克说这句话的含义了。

确实，谷歌专为Agent时代打造的第8代TPU，亮点显而易见：

一是在「训推分离」这条路上，谷歌比英伟达走得更彻底——

直接推出了两款物理上完全不同的芯片。

面向训练的TPU 8t：整体计算性能是上一代产品Ironwood的近三倍，能将模型训练周期从数月缩短至数周。

面向推理的TPU 8i：在成本不变的情况下，能让服务能力翻倍。

二是在能效上，谷歌继续发力——

采用第四代液冷技术，第8代TPU每瓦性能比上一代Ironwood提升了近两倍。

性能和能耗两个问题一解决，Agent的大规模落地才算真正有了可能。

也正因此，这次第8代TPU一发布，就在𝕏引发了不小的讨论：

这才是真正能带来变革的硬件升级。

市场的反应也来得很直接。

就在第8代TPU亮相发布会后，Alphabet股价盘中最高涨幅2.2%，显示出资本市场对这一方向的初步认可。

预计这两款芯片将在今年晚些时候正式上市。

Gemini参与设计、谷歌放出两款芯片细节

值得一提的是，谷歌第8代TPU背后还有Gemini的手笔。

虽然谷歌没有透露Gemini具体参与了哪些环节，但博客里可是给它署了名（Co-designed）。

而凝聚「人机智慧」的第8代TPU，这次分别朝着训练和推理两个方向极致开卷——

最终也诞生了8t和8i两款芯片。

笑死，网友还脑洞大开想到了一句如何区分它们的口诀：

横屏用于训练，竖屏用于推理。

先看右手边专攻训练的8t。

对比上一代Ironwood，8t直接把「规模、效率、稳定性」三件事一起拉满了：

规模：单个超级芯片组可扩展至9600个芯片+2PB共享高带宽内存，芯片间带宽翻倍，总算力达到121 ExaFlops，支持模型直接运行在统一超大内存池中。

利用率：存储访问速度提升10倍，配合TPUDirect数据直连，让算力不再空转，尽可能把资源吃满。

扩展性：基于Virgo网络+JAX+Pathways，实现近乎线性扩展，单一逻辑集群可延伸至百万级芯片规模。

稳定性：通过实时遥测、自动绕过故障链路（ICI）、光路交换（OCS）等机制，在超大规模下仍能维持运行连续性，有效吞吐目标最高可达97%。

而专攻推理的8i，则完全是另一套思路，核心就三个字：

为此，谷歌几乎是从底层把整套推理栈重做了一遍：

内存：直接对「内存墙」下手，把288GB高带宽内存+384MB片上SRAM塞进芯片里（容量是上一代的3倍），让模型的活跃数据尽量都留在芯片上，减少来回搬运带来的等待。

系统效率：引入自研的Axion CPU架构，把每台服务器的CPU主机数量翻倍，再通过NUMA做隔离优化，让整套系统在协同时更高效。

模型适配：针对当下主流的MoE混合专家模型，把互连带宽提升到19.2 Tb/s，再用新的Boardfly架构把网络「路径长度」砍掉一半以上，让多专家协同时不再拖慢整体速度。

延迟控制：新增片上集体加速引擎（CAE），把原本需要跨芯片完成的全局操作搬回芯片内部，整体延迟最高可降低到原来的1/5。

这一套下来，效果也很直接——

每美元性能提升约80%，在相同成本下，服务能力接近翻倍。

至于为什么决定训推分离？在谷歌看来这事儿很简单——

智能体时代对延迟和吞吐的要求截然不同，训练要的是「快」，推理要的是「稳」。

实践已经证明，一块芯片无法同时做好两件事。

既然如此，那为何不尝试分开做呢？

至少在第8代TPU身上，谷歌已经看到了这种分离带来的实际利益。

不过，谷歌之所以敢走这条分离的路，背后也确实离不开它对全栈的掌控能力。

背后是全栈协同优化

一个可能容易被忽略的细节是：

以前谷歌的TPU可能搭配的是通用的、第三方的CPU，比如英特尔或AMD的x86架构CPU。

但从这一代开始，TPU终于和谷歌自己设计的CPU（Axion）搭档了。

这意味着，谷歌可以按照AI任务的实际需求，去定制CPU和TPU之间的配合方式，从而榨干每一瓦电的性能。

而说到AI发展的最大瓶颈之一的「电」，谷歌这次也下了不少功夫。

一方面，它不再只盯着芯片本身，而是把优化范围直接拉到整条链路——

从CPU、TPU，到网络，再到整个数据中心，全部围绕「省电」重做一遍。

比如把网络连接直接塞进计算芯片里，减少节点之间的数据搬运。

再配合统一的电源管理，根据实时负载动态调功，把电优先分给最关键的计算环节。

另一方面，连数据中心也不再是被动承载，而是和TPU一起协同设计，供电、调度、散热全部重新打磨。

再加上第四代液冷，把原本风冷顶不住的功率密度撑起来，让算力可以在更高能效区间稳定运行。

这些优化叠加起来，效果也很直接：