天下苦DRAM久矣半导体行业观察

DRAM价格暴涨，已成AI算力部署关键瓶颈，根源在于HBM持续挤占产能。价格倒逼技术路线转向：AMD以AI调度冷数据至闪存，Apple将模型常驻NAND，Marvell以硬件压缩扩容，闪迪推HBF新架构。纯DRAM堆砌时代结束，AI推理转向多层内存架构，以分层策略平衡性能与成本。

当前，数据中心正面临一场新危机——不是算力不够，而是内存太贵。

近年来，随着大模型推理、内存数据库、高性能计算等AI业务的规模化快速扩张，正在将数据中心推向内存资源的临界点。曾经作为服务器标配组件的DRAM，如今已成了最昂贵、最稀缺的基础设施资源，价格暴涨与供给刚性，成为制约着AI算力部署节奏的关键因素。

根据Counterpoint Research的追踪数据显示，64GB DIMM内存的价格在2025年第三季度到2026年第一季度之间已上涨3.5倍，且涨势尚未见顶——预计到2026年第三季度，累计涨幅将达到5倍。

TrendForce的数据更加直观：2026年第一季度DRAM合约价季增幅度高达93%至98%，带动全球DRAM产业整体营收环比增长81%，达到970亿美元。进入第二季度，涨势仍未停歇，合约价预计再涨58%至63%。

现货市场的信号更为直观：当前服务器级DDR5 RDIMM的现货单价区间达每GB 27至37美元，仅搭建一个12TB的内存池，纯DRAM硬件采购成本就接近50万美元。

DRAM危机，全面爆发

这轮涨价风暴的根源，在于HBM对DRAM产能的持续蚕食。

据相关数据披露，随着AI训练与推理对高带宽内存的需求爆发，HBM在DRAM晶圆产能中的占比已从2020年的2%攀升至2026年预估的25%。三星、SK海力士、美光三大原厂纷纷将优质产能向高毛利的HBM倾斜，2025至2027年HBM投片量占整体DRAM投片量的比例分别为18%、22%和约30%。一片HBM晶圆要消耗约三片DDR5的产能，三大原厂主动削减手机、PC的低毛利订单，把产能全力倒向AI。再考虑到超大规模云厂商又以多年期长单提前锁定未来晶圆产出，进一步压缩了面向服务器领域的标准DRAM供给。

而供给端的刚性，决定了短缺难以在短期内缓解。

先进DRAM制程高度依赖EUV光刻机，单台设备售价高达约2亿美元，一座现代化晶圆厂的投资动辄数百亿美元，即便一切顺利，建设周期也长达数年。产能扩张的速度，远远追不上AI需求增长的脚步。

杰富瑞预计，若不计入国产厂商影响，2026年全球存储bit供给增长仅为7%至8%。DRAM与NAND合计可能出现约15万至20万片/月的供给缺口。美光科技在2026第三财季财报中表示，即使行业供应可能在2028年逐步改善，目前仍难以判断存储供给何时能够追上持续增长的需求。

此外，压力早已从数据中心蔓延至消费端。

Xbox首席执行官Asha Sharma公开表示，过去两年间内存成本上涨了约五倍，直接导致公司无法生产足够数量的游戏主机来满足市场需求。苹果也宣布相继对iPhone、Mac、iPad等产品进行涨价。

摩根士丹利分析师Shawn Kim团队更是直言，内存价格飙升与供应稀缺正演变为数字经济的全面风险，“从AI基础设施的瓶颈，蔓延至硬件利润率、设备可负担性、云成本、通胀乃至政策层面”。

在服务器物料清单中，DRAM的占比变化更能说明问题。2023年，DRAM约占服务器整机成本的50%；到2026年年中，这一比例已攀升至60%至90%，平均约75%。CPU的价格并没有下降，但在内存价格飞涨的映衬下，CPU的涨价幅度显得微不足道。

更讽刺的是，花了大价钱采购的内存，实际利用率并不高——Meta等超大规模厂商的实测数据显示，数据中心的内存普遍仅有约一半容量承载着活跃的“热数据”，大量冷数据长期占据着昂贵的DRAM资源。

面对DRAM的昂贵与稀缺，行业玩家开始另辟蹊径——不再单纯堆硬件，而是用技术手段减少对DRAM的依赖。

AMD：AI预测调度，让闪存“隐身”成内存

AMD选择了最轻量的软件切入路径。

2026年6月，AMD宣布收购内存优化厂商MEXT，其核心目标就是引入通过AI驱动的内存分层技术，将冷数据从高价DRAM下沉到低成本NAND闪存，实现有效内存容量的低成本扩张。

据悉，MEXT成立于2023年，创始团队大有来头——联合创始人兼CEO Gary Smerdon曾是Fusion-io的首席战略和产品官，将闪存存储大规模商业化的先行者，十多年前，苹果和Meta Platforms都是其主要客户。

MEXT针对内存效率瓶颈，推出了一项基于AI的分层内存(memory tiering)技术。这项技术能将低频率访问的数据，从昂贵的DRAM移转至每单位容量成本远低的NAND型闪存，且不影响应用程序运作。

MEXT的核心产品是预测内存引擎(Predictive Memory Engine)，一套完全基于软件的内存分层方案：它以内存页为粒度持续监测应用的访问模式，自动将低频访问的冷数据迁移到NAND闪存中——闪存每比特成本仅约为DRAM的1/55；同时通过AI模型学习工作负载的访问规律，预测即将被调用的数据页，在应用发起请求前就主动将其预取回到DRAM，让软件能够像直接访问主存储器般读取数据，进而确保效能不受影响。

图源：Nextplat

整套机制对操作系统和上层应用完全透明，无需修改任何业务代码，也不需要新增专用硬件，数分钟即可完成部署。

官方数据显示，该方案可将系统有效内存容量提升2至4倍，基础设施整体成本下降约50%。在Neo4j图数据库、EDA仿真、影视渲染等典型场景中，DRAM与闪存1:1配比的配置，可达到纯DRAM配置约95%的吞吐量，成本却大幅降低。

MEXT之前针对戴尔服务器以及AWS云实例进行了对比测试：

戴尔电脑/AWS配备和未配备MEXT扩展内存的对比图（图源：Nextplat）

已经在使用MEXT内存扩展时，内存和闪存比例为1:1和1:3时Neo4j图数据库的性能和性价比：

图源：Nextplat

MEXT的思路虽说不是革命性的——内存分层、把冷数据迁到更便宜的存储介质上，这些概念其实都已经存在了相当长的时间。但以往的技术没能在数据中心大规模落地，关键就在于预测算法的准确度不够。一旦预判失准，程序在需要数据时才从闪存搬回DRAM，延迟就会直接暴露，性能损失根本无法接受。

MEXT的突破在于用AI模型来干这件事。它的预测内存引擎持续分析内存访问模式，通过AI判断哪些数据页接下来最有可能被用到，然后在应用程序真正发起请求之前，就主动把数据从闪存迁回到DRAM。

对AMD而言，这笔收购补上了自身全栈能力的关键一块。在EPYC CPU、Instinct GPU与ROCm软件栈之外，MEXT带来的内存效率层，让AMD能够为客户提供从芯片到数据流调度的完整解决方案，既帮助客户降低总拥有成本、减少GPU“等数据”的闲置，也强化了自身在AI基础设施市场的竞争力。

收购消息公布当日，AMD股价盘中上涨近7%，市场用投票表达了对这一路径的认可。

当然也得说一句，MEXT的技术最终能在AMD的数据中心产品中落地到什么程度，还有待时间来检验。NAND闪存和DRAM在延迟上的物理差异是客观存在的，仅靠软件层面的AI预测能否真正弥合这道鸿沟，还需要看大规模部署后的实际表现。

Apple：端侧大模型，把模型“存进”闪存

当数据中心在为DRAM成本头疼，消费端也面临着同样的约束——手机等终端的DRAM容量极为有限，却要承载端侧大模型的推理需求。苹果给出的答案，是让大模型常驻闪存，按需加载到内存。

苹果最新的AFM 3 Core Advanced是一款200亿参数的端侧大模型，若按传统方式全部加载到DRAM，远超消费级设备的内存上限。苹果通过稀疏激活架构破解了这一难题：完整模型全部存放在NAND闪存中，推理时不加载全部权重，而是根据输入提示词一次性选定本次推理所需的专家模块，仅将10亿到40亿参数的工作集调入DRAM。

AFM 3 Core Advanced模型架构示意图

与传统MoE模型逐Token切换专家、导致频繁数据搬运不同，苹果采用按提示词粒度的路由机制，配合高比例常驻DRAM的共享专家，大幅减少了闪存与内存之间的交换次数，将加载延迟降到最低。再结合指令级剪枝（IFP）、Transformer层精简等优化，最终将200亿参数模型的DRAM峰值占用控制在2GB至8GB区间，进一步平衡了内存占用与计算效率，有效解决了MoE在端侧部署时DRAM占用过大的问题，使其能够在iPhone等终端设备上流畅运行，实现了“大模型小内存”的端侧推理。

这套架构并非临时攻关的产物。