David Patterson撰文:推理芯片的四种方案半导体行业观察

1/19/2026

David Patterson撰文指出LLM推理瓶颈在于内存与互连而非计算,并四大架构方向:高带宽闪存(HBF),提供10倍容量与HBM级带宽;近内存处理(PNM),优化存算布局;3D内存逻辑堆叠,利用垂直互连实现高能效;以及低延迟互连,加速分布式通信。这些方案旨在解决AI推理面临的效率与成本危机。

日前,由Xiaoyu Ma和David Patterson联合署名的文章《Challenges and Research Directions for Large Language Model Inference Hardware》正式发布。这篇文章被发布以后,引起了广泛关注。文章中,作者围绕LLM推理芯片的挑战以及解决方案,给出了建议。

以下为文章正文:

大型语言模型 (LLM) 推理难度很高。底层 Transformer 模型的自回归解码阶段使得 LLM 推理与训练有着本质区别。受近期人工智能趋势的影响,主要挑战在于内存和互连,而非计算能力。

为了应对这些挑战,我们重点介绍了四个架构研究方向:高带宽闪存,可提供 10 倍内存容量,带宽堪比 HBM;近内存处理和 3D 内存逻辑堆叠,可实现高内存带宽;以及低延迟互连,可加速通信。虽然我们的研究重点是数据中心人工智能,但我们也探讨了这些方案在移动设备上的应用。

当一位作者于 1976 年开始其职业生涯时,计算机体系结构会议上约 40% 的论文来自业界。到 2025 年 ISCA 会议时,这一比例已降至 4% 以下,表明研究与实践之间几乎完全脱节。为了帮助恢复二者之间的历史联系,我们提出了一些研究方向,如果这些方向得以推进,将有助于解决人工智能行业面临的一些最严峻的硬件挑战。

大型语言模型 (LLM) 推理正面临危机。硬件的快速发展推动了人工智能的进步。预计未来 5-8 年,推理芯片的年销售额将增长 4-6 倍。虽然训练展现了人工智能的显著突破,但推理的成本决定了其经济可行性。随着这些模型使用量的急剧增长,企业发现维护最先进的模型成本高昂。

新的趋势使推理变得更加困难。LLM 的最新进展需要更多资源来进行推理:

专家混合模型 (MoE:Mixture of Experts)。与单一的密集前馈模块不同,MoE 使用数十到数百个专家(DeepSeekv3 为 256 个)进行选择性调用。这种稀疏性使得模型规模能够显著增长,从而提高模型质量,尽管训练成本仅略有增加。MoE 在帮助训练的同时,也通过扩展内存和通信能力,加剧了推理过程。

推理模型。推理是一种先思考后行动的技术,旨在提高模型质量。额外的“思考”步骤会在最终答案之前生成一长串“想法”,类似于人们逐步解决问题的过程。思考会显著增加生成延迟,而长长的想法序列也会占用大量内存。

多模态。LLM 已从文本生成发展到图像、音频和视频生成。更大的数据类型比文本生成需要更多的资源。

长上下文。上下文窗口指的是 LLM 模型在生成答案时可以查看的信息量。更长的上下文有助于提高模型质量,但会增加计算和内存需求。

检索增强生成 (RAG:Retrieval-Augmented Generation)。RAG 访问用户特定的知识库,获取相关信息作为额外上下文,以改进 LLM 结果,但这会增加资源需求。

扩散。与顺序生成标记的自回归方法不同,新型扩散方法一步生成所有标记(例如,整幅图像),然后迭代地对图像进行去噪,直至达到所需的质量。与上述方法不同,扩散方法只会增加计算需求。

不断增长的市场和LLM推理面临的挑战表明,创新既是机遇也是需求!

当前LLM推理硬件及其效率低下之处

我们首先回顾LLM推理的基础知识及其在主流AI架构中的主要瓶颈,重点关注数据中心中的LLM。移动设备上的LLM受到不同的限制,因此也需要不同的解决方案(例如,HBM不可行)。

LLM的核心是Transformer,它包含两个特性截然不同的推理阶段:预填充(Prefill)和解码(Decode) (图1)。预填充类似于训练,它同时处理输入序列中的所有标记,因此本质上是并行的,并且通常受限于计算能力。相比之下,解码本质上是顺序的,因为每个步骤都会生成一个输出标记(“自回归:autoregressive”),因此它受限于内存。KV(Key Value)缓存连接这两个阶段,其大小与输入和输出序列的长度成正比。尽管在图1中预填充和解码同时出现,但它们并非紧密耦合,通常运行在不同的服务器上。分解推理允许使用批处理等软件优化方法,从而降低解码过程的内存占用。一项关于高效LLM推理的调查回顾了许多软件优化方法。

GPU 和 TPU 是数据中心常用的加速器,可用于训练和推理。历史上,推理系统通常是在训练系统的基础上缩减而来,例如减少芯片数量或使用内存或性能更低的小型芯片。迄今为止,还没有专门为 LLM 推理设计的 GPU/TPU。由于预填充与训练类似,而解码则截然不同,因此 GPU/TPU 在解码方面面临两个挑战,导致效率低下。

解码挑战 1:内存

自回归解码使得推理本质上受限于内存,而新的软件趋势加剧了这一挑战。相比之下,硬件发展趋势则完全不同。

1.AI 处理器面临着内存瓶颈

目前的数据中心 GPU/TPU 依赖于高带宽内存 (HBM),并将多个 HBM 堆栈连接到单个单芯片加速器 ASIC(图 2 和表 1)。然而,内存带宽的提升速度远低于计算浮点运算能力 (FLOPS) 的提升速度。例如,NVIDIA 64位GPU的浮点运算性能

从2012年到2022年增长了80倍,但带宽仅增长了17倍。这种差距还将继续扩大。

2.HBM 的成本日益高昂

以单个 HBM 堆栈为例,其容量(美元/GB)和带宽(美元/GBps)的标准化价格均随时间推移而上涨。图 3(a) 显示,从 2023 年到 2025 年,两者的价格均增长了 1.35 倍。这一增长是由于随着每个 HBM 堆栈芯片数量的增加以及 DRAM 密度的增长,制造和封装难度也随之增加。相比之下,图 3(b) 显示,标准 DDR4 DRAM 的等效成本随时间推移而下降。从 2022 年到 2025 年,容量成本降至 0.54 倍,带宽成本降至 0.45 倍。尽管由于意外的需求,所有内存和存储设备的价格在 2026 年大幅上涨,但我们认为,从长远来看,HBM 和 DRAM 价格走势的分化趋势将持续下去。

3.DRAM 密度增长正在放缓

对于单个 DRAM 芯片而言,其扩展性也令人担忧。自2014年推出的8Gb DRAM芯片以来,实现四倍增长需要超过10年的时间。此前,四倍增长通常每3-6年发生一次。

4.仅使用SRAM的解决方案已不足以应对挑战

Cerebras和Groq曾尝试使用填充SRAM的全光罩芯片来规避DRAM和HBM的挑战。(Cerebras甚至采用了晶圆级集成。)虽然在公司十年前成立时这种方案看似可行,但LLM很快就超过了芯片上SRAM的容量。两家公司后来都不得不进行改造,加装外部DRAM。

Scroll for more