谷歌第八代TPU,为什么是两款?华尔街日报

4/22/2026

谷歌将AI芯片战略推向新阶段。

在周三拉斯维加斯举行的Google Cloud Next 2026大会上,谷歌云发布第八代张量处理器(TPU)的两款新品——专为训练设计的TPU 8t与专为推理优化的TPU 8i,这是谷歌首次将训练与推理任务拆分至独立芯片,标志着其AI硬件路线的重大转向。

两款芯片均计划于2026年晚些时候正式对外供应。与去年11月发布的第七代Ironwood TPU相比,TPU 8t在同等价格下性能提升2.8倍,TPU 8i性能提升80%;两款芯片每瓦性能均较上一代提升逾一倍,TPU 8t达124%,TPU 8i达117%。

谷歌高级副总裁兼AI与基础设施首席技术官Amin Vahdat表示,随着AI智能体的兴起,"业界将受益于针对训练和推理各自需求专门优化的芯片"。Alphabet首席执行官桑达尔·皮查伊亦在博客中指出,这一架构旨在"以具有成本效益的方式,提供同时运行数百万个智能体所需的大规模吞吐量和低延迟"。

为何拆分为两款芯片

此次将第八代TPU一分为二,是谷歌对AI工作负载日益分化趋势的直接回应。预训练、后训练与实时推理在计算特性上已显著分化:训练任务追求极致吞吐量与规模扩展,推理任务则对延迟和并发更为敏感。单一芯片难以同时兼顾两类场景的效率最优。

谷歌在技术博客中指出,第八代TPU的设计哲学围绕可扩展性、可靠性与效率三大支柱,两款芯片共享谷歌AI软件栈的核心基因,但各自针对不同瓶颈进行了专项优化。

两款芯片均集成了基于Arm架构的Axion CPU,以消除数据预处理延迟造成的主机侧瓶颈,确保TPU计算单元持续满载运行。

TPU 8t:面向超大规模训练的算力引擎

TPU 8t定位为预训练与嵌入密集型工作负载的专用加速器,谷歌称其能够"将前沿模型开发周期从数月压缩至数周"。

在规模上,TPU 8t最多可将9600块芯片组合为单一超级计算节点(superpod),并通过JAX与Pathways框架将分布式训练扩展至单一集群超过100万块TPU芯片。

芯片层面,TPU 8t引入了三项关键技术创新。

其一是SparseCore加速器,专门处理嵌入查找中不规则的内存访问模式,将数据依赖的全局聚合操作从矩阵乘法单元(MXU)中卸载,避免通用芯片常见的零操作瓶颈。

其二是原生FP4支持,通过4位浮点数将MXU吞吐量翻倍,同时降低数据搬运的能耗,使更大的模型层可驻留于本地硬件缓冲区。

其三是更均衡的向量处理单元(VPU)扩展设计,使量化、softmax等向量操作与矩阵乘法实现更好的流水线重叠,提升芯片整体利用率。

网络层面,谷歌为TPU 8t引入了全新的Virgo网络架构,采用高基数交换机与扁平化两层非阻塞拓扑,将数据中心网络(DCN)带宽较上一代提升最高4倍,芯片间互联(ICI)带宽提升2倍。单一Virgo网络可连接逾13.4万块TPU 8t芯片,提供高达47拍比特/秒的非阻塞双向带宽,整体算力超过160万ExaFlops。

存储方面,TPU 8t引入TPUDirect RDMA与TPUDirect Storage技术,绕过主机CPU直接在TPU高带宽内存(HBM)与网卡、高速存储之间传输数据,存储访问速度较第七代Ironwood TPU提升10倍,可确保MXU在处理大规模多模态数据集时保持满载。

TPU 8i:面向高并发推理的低延迟专家

TPU 8i针对后训练阶段与高并发推理场景设计,其架构重心在于降低延迟、提升每芯片的并发处理能力。

片上存储是TPU 8i最显著的硬件特征。每块芯片集成384MB静态随机存取存储器(SRAM),是上一代Ironwood的三倍,可将更大的KV Cache完整保留在芯片上,大幅减少长上下文解码过程中核心的空闲等待时间,对需要多步骤推理的AI任务尤为关键。

TPU 8i还引入了集合加速引擎(CAE),专门加速自回归解码与"思维链"处理中的归约与同步步骤。每块TPU 8i芯片包含两个张量核心(TC)与一个CAE芯粒,取代了上一代Ironwood中的四个SparseCore,片上集合操作延迟降低5倍,直接提升了同时运行数百万智能体所需的吞吐量。

网络拓扑方面,TPU 8i放弃了TPU 8t沿用的3D环面(torus)结构,转而采用全新的Boardfly互联拓扑。3D环面在1024芯片配置下,任意两芯片间最多需要16跳;Boardfly通过高基数设计将最大跳数压缩至7跳,网络直径缩减56%,全对全通信延迟改善最高50%,对混合专家模型(MoE)和推理模型中频繁的跨芯片令牌路由尤为有利。Boardfly采用分层结构,从四芯片构建块逐级扩展至最多1152块芯片的完整Pod,并通过光学电路交换机(OCS)实现组间互联。

软件生态与市场意义

谷歌强调,硬件性能的释放有赖于配套软件栈的协同。

第八代TPU延续第七代Ironwood建立的软件体系,支持JAX、PyTorch、Keras及vLLM等主流框架,并提供Pallas自定义内核语言以充分挖掘SparseCore与CAE的硬件潜力。

谷歌同时宣布,原生PyTorch对TPU的支持现已进入预览阶段,用户可直接将现有PyTorch模型迁移至TPU运行,无需修改代码。

从市场角度看,谷歌此次双芯片策略直接回应了AI基础设施成本压力。训

练与推理对硬件的需求差异显著,统一芯片意味着在某一场景下必然存在资源浪费。通过专项优化,谷歌得以在价格性能比上实现更大幅度的提升,为云客户提供更具竞争力的单位算力成本。

两款芯片均已纳入谷歌云AI Hypercomputer超算架构,与硬件、软件及网络深度集成,覆盖AI全生命周期工作负载。

Scroll for more