算力的尽头是电表？赛先生

科学家们正在探索新的算法、硬件和计算方法，以降低人工智能的能耗需求。数据中心的战略性选址以及其他提高绿色能源使用率的措施，同样至关重要。

随着近年来 AI 工具的日渐普及，其带来的环境影响也与日俱增。图片来源：JAMES FRYER / THEISPOT

科学家们正在从算法、硬件和计算方式等多个方向探索降低AI耗电量的办法。另外，数据中心的选址策略，以及如何提高绿色能源的使用比例，同样很关键。

当我（译者注：作者）在公寓里喝着咖啡，随手问了谷歌的AI Gemini一个问题时，很难想到生成一个回复会耗掉多少电。信号从路由器发出，大概先经过铜线或光纤，然后一路跑到谷歌的某个数据中心。在数据中心里面，经过一排排处理器的处理，我的问题被转换成数字，再经过数十亿次运算，才弄清楚上下文和意思。答案组织好之后，转瞬之间就又飞了回来。

数据中心好比互联网的心脏，驱动着从电子邮件到网页搜索的一切，已经运转了几十年。但随着AI生成文本、图像和视频的功能日趋普及，数据中心的耗电量也达到了前所未有的水平。据谷歌的估算，用Gemini处理一条中等长度的文本提示词，大约要花掉0.24瓦时电。

单看一次消耗的电量，确实微不足道——0.24瓦时，也就够你看九秒钟电视。但是架不住积少成多。2026年3月，OpenAI估计每周有超过9亿人在用它的ChatGPT，每天的查询量高达数十亿次。

加州大学圣巴巴拉分校研究数据中心可持续性的埃里克·马萨内特（Eric Masanet）说，数据中心在全球——以及在美国（美国的数据中心数量位居全球之首）——到底用了多少电，并不是每家科技公司都会公开披露。但是，按照国际能源署最新的估算，2025年美国的数据中心吞掉了大约224太瓦时的电量，占了全美用电量的5%以上。相比2018年数据中心用电占比估计只有1.9%，可以说是大幅攀升，那会儿生成式AI还没大规模爆发。

而这种电力消耗似乎还远远不够。为了争夺生成式AI市场的领导地位，谷歌、Meta、亚马逊、OpenAI、Anthropic、微软、甲骨文等知名科技公司都在疯狂砸钱，动辄几百亿、几千亿美元，大建AI专用数据中心。AI时代之前的数据中心，耗电量大概在100兆瓦上下（足以满足 83,000 户家庭平均用电需求）。现在新建的往往是“超大规模”的数据中心，轻轻松松吃掉1吉瓦甚至更多，大致相当于洛杉矶全市发电量的十分之一。

令马萨内特和其他专家感到警觉的是，这些新增的能源需求中有很大一部分是由化石燃料（如天然气）电厂满足的，而化石燃料的燃烧会释放大量二氧化碳，进一步加剧全球变暖。导致这种情况的一个关键原因是，数据中心常建在水电、地热、太阳能或风能等可再生能源不够丰富的地区。

对于这个问题，科技公司的常见做法是，在别处投资可再生能源，用来“抵消”自己的碳排放。但问题是，除非那些清洁能源电厂的发电量超过了数据中心的耗电量，否则这个策略说破天也只是让排放量原地踏步，做不到真正的“净零排放”。而要遏制全球变暖，净零排放才是关键。“每用化石燃料发电机发电一兆瓦，”马萨内特说，“就等于我们往后退了一步。”

这还没算上制造数据中心里那些硬件所消耗的资源，也没有考虑对周边社区的影响。住在数据中心附近的居民，常常要忍受天然气电厂的空气和噪音污染。同时，数据中心冷却还需要大量用水，使当地的水资源也面临着巨大压力。

国际能源署的一份不完全数据库显示，美国大量数据中心集中在弗吉尼亚一带。图片来源：IEA / ENERGY AND AI OBSERVATORY 2025. CC BY 4.0

预测AI的能源影响，向来是一件非常棘手的事情。毕竟AI投资的回报规模能有多大，谁也说不准。但在专家们看来，有一件事已经很清楚：节能策略已经刻不容缓。2025年的一项估算显示，如果任其发展，美国数据中心每年的二氧化碳排放量很快会达到2400万到4400万吨，后者与挪威全国一年的排放量相当。

因此，计算机科学家和工程师们正在重新审视 AI 背后的那些能耗巨大的硬件和软件。他们一边研发更省电的算法和处理器设计，一边认真考虑数据中心的选址和建造方式。

“AI的高能耗不是偶然的，说到底，它是我们构建系统的方式决定了的，”康奈尔大学能源系统专家尤峰崎（Fengqi You）说道。但他也指出，如果能搭配运用好各种解决方案，“我们是有可能扭转这个趋势的。”

能耗问题的根源

要想搞懂AI为什么这么耗电，首先得了解一下大语言模型（LLM）。LLM是聊天机器人、AI助手这类文本生成工具背后的核心——具体来说，它们大多基于谷歌大脑（Google Brain）机器学习实验室在2017年提出的一种设计。这种设计，即 Transformer 架构，能够以闪电般的速度处理文本：它同时获取每个单词，并衡量该词与其所见到的每一个其他单词之间的关系。它通过计算每个单词与文本中所有其他单词的关联强度，并在大量上下文中观察每个单词，来“学习”哪些词汇可以组合在一起。（AI图像和视频生成器用的也是类似的设计思路。）

落到计算层面，实际操作就是把单词或词片段转化成数字，然后在它们之间执行加法和乘法运算。速度能这么快的关键在于可以并行计算，而这得益于图形处理器，即 GPU。GPU 主要由英伟达（NVIDIA）制造，最初是为了在游戏中快速渲染3D画面而发明出来的。

给AI计算提供算力的芯片厂商正在努力提高芯片的能效，英伟达最新推出的AI专用芯片就是一例。图片来源：英伟达

LLM为了学会这些关系所做的初始训练，会消耗大量能源。训练的时候，每个词都要跟同一段文本里所有其他词逐一比对，所以模型的计算量——也就是能耗——会随着文本长度以平方关系增长：文本长度变两倍，计算量变四倍。考虑到大多数 LLM 是在海量的公开互联网文本上训练的，这样算下来更是天文数字。有人估算过，训练GPT-4（2023 年推出的 ChatGPT 版本），花掉了大约50到60吉瓦时的电力，足以满足旧金山三到四天的用电。

不过，让专家们更头疼的，是模型训练完成之后实际使用时——也就是推理阶段——的能耗。“训练也就一次，但推理要面对的是全球几十亿用户，”密歇根大学的AI系统专家莫沙拉夫·乔杜里（Mosharaf Chowdhury）说道。他一直在跟踪测量几个已开源的大语言模型的用电情况。

这一过程出乎意料地低效。Transformer模型每生成一个词——挑出在当前上下文中跟在前面那个词后面概率最高的那个——就得把整个查询和已经写了一半的答案重新送入模型中再运行一遍。而且它每次都要动用训练期间为了理解语言模式所需要的全部参数，这些参数动不动就是几千亿甚至几万亿个。

“只是为了多写一个词，就要做海量计算，这件事本身就很有问题，”奥地利约翰内斯·开普勒大学的AI专家君特·克兰鲍尔（Günter Klambauer）表示。

优化AI软件以节省能源

意识到这一点后，人们开始把目光投向那些专攻特定任务的小型语言模型。这些模型训练面更窄、参数更少（几千万到几亿个），计算量也比大模型少得多。在2025年联合国教科文组织发表的一篇论文中，伦敦大学学院的计算机科学家伊万娜·德罗布尼亚克（Ivana Drobnjak）和同事把Meta的语言模型Llama-3.1跟几款专门针对特定任务的小模型做了能耗对比——其中DistilBART和t5-small-xsum负责摘要，另外几款分别做翻译或问答。结果发现，在各自的任务上，这些小模型比执行同样工作的 Llama 3.1 节省了超过 90%的能耗。

于是，计算机科学家们干脆把这种任务特化的思路做进了LLM内部。所谓的“专家混合”模型，就是一个大模型里只有特定部分会针对某些任务被激活。这些部分“各自学会了处理语言中不同的模式，”德罗布尼亚克解释道。

DeepSeek R1 模型的能耗远低于其他模型，很多人认为“专家混合”就是原因之一。康奈尔科技学院的电气与计算机工程专家乌迪特·古普塔（Udit Gupta）指出，其实像Gemini 或ChatGPT这样的LLM也在把用户的查询导向更专业化的子模型。“目前有大量工作致力于评估用户查询或任务的复杂性，然后找到合适的模型来处理。”古普塔说。（谷歌发言人拉尔夫·布雷默提到，处理一条中等长度的Gemini提示词现在花0.24瓦时，能效相比2024年已经提高了33倍，但一些专家仍然怀疑，用LLM处理查询到头来还是比普通网页搜索更耗能。）

科学家们还在探索不同类型的 LLM，以摆脱克兰鲍尔所说的Transformer模型那个“平方诅咒”。

一种替代方案被称为长短期记忆（LSTM）模型。它的思路是，把用户输入的提示词和已经生成的文本临时储存成一份“摘要”，就像回想一部电影的关键情节，而不是把整部电影从头再放一遍。这样一来，每次生成新词的时候，它只需要处理摘要，不用再跑一遍此前文本中所有的词。LSTM靠这一招避免了响应查询时能耗暴涨的问题。克兰鲍尔说，处理八千字左右的文本，LSTM比Transformer类模型节省了大约一半的电力。

LSTM模型其实在20世纪90年代就已问世，但因 Transformer 训练速度更快而被暂时搁置。不过克兰鲍尔说，最近的一些进展提升了LSTM的性能，现称为xLSTM。他正与奥地利初创公司NXAI合作，继续开发和优化xLSTM，“因为我们觉得为了能效，这条路值得走。”他说。不过，德国人工智能研究中心的人工智能与商业信息学研究员沃尔夫冈·马斯（Wolfgang Maaß）也指出，大科技公司在Transformer路线上砸了这么多时间、这么多资源，如果要换赛道，成本过于高昂。“我们还得观望一下，看它是会成为主流，还是只在市场里占据一个小众定位。”

晶圆与光计算

虽然专家们说最快见效的节能手段在软件层面，但也有一些人在打AI计算芯片本身的主意，毕竟这些芯片才是真正的吃电大户。多年以来，工程师通过往单颗处理器里塞进更多算力来不断提升芯片效率，这样在协同进行 AI 计算的芯片之间传输数据就不那么费电了。而实现这一点的办法就是缩小芯片里晶体管（处理数据的微型电子开关）的尺寸。

但晶体管已经小到接近物理极限了。“我们需要想点别的办法来改进设计，”波士顿大学光子学中心的计算机架构师阿贾伊·乔希（Ajay Joshi）说道。

一种策略是让芯片变得更大。伊利诺伊大学厄巴纳-香槟分校的计算机工程师拉克什·库马尔（Rakesh Kumar）介绍说，餐盘大小的“晶圆级芯片”，集成的晶体管数量是邮票大小单颗 GPU 的近 70 倍，而通信功耗只有同类GPU的 1/143。晶圆级芯片目前由加州公司Cerebras量产，不过也有缺点，比如制造过程中更容易损坏。但靠着省电等优势，“它对很多超大规模企业和AI公司会非常有吸引力。”库马尔表示。

提高处理器效率的一种策略是将其做得更大，以容纳更多的晶体管（计算机的基本构建单元）。像加州厂商Cerebras开发的晶圆级芯片，就减少了在单个芯片之间传输信息所消耗的能量。图片来源：CEREBRAS SYSTEMS

很多科技公司走的是另一条路，即自己设计专门用于 AI 计算的处理器，来提高能效。例如亚马逊云服务（AWS）的 Trainium 2 芯片、谷歌的 Ironwood 张量处理单元（TPU）。至于英伟达，可持续发展主管乔希·帕克（Josh Parker）说，现在的 AI 专用的 GPU 跟当年给游戏用的已经不可同日而语，其设计目标就是用最高的效率运行 AI 任务。另外，其他方面的创新，像是GPU 之间互连效率的提升，也发挥了重要作用。“过去八年，英伟达 GPU 跑大语言模型任务的能效提升了 45,000倍。”他说。

工程师们还在探索其他可能的计算方式。传统的 AI 处理器通过将数字编码为 0 和 1 的二进制系统来进行计算，这是通过晶体管的开启和关闭来实现的（例如，表示数字 5 需要四个晶体管来表示编码 0101）。但晶体管能做的事情，不止是当个二进制开关、要么通电要么不通电。它还能像模拟旋钮一样，停留在不同的中间电压上，各自代表不同的数字。这样一来，完成同样的计算只需更少的晶体管，从而更省电。“人们几十年前就知道，用模拟的方式来做某些事情可以大幅提高能效，”库马尔说道。

例如，德国于利希研究中心的电气工程师保罗·马内亚（Paul Manea）和他的同事们正在开发一种名为“增益单元”的器件，里面装满了按上述方式工作的晶体管。关键是，增益单元既能存储处理查询所需的数据，又能直接计算出答案。这克服了传统计算系统的另一大能耗瓶颈——在传统设计中，数据存储和运算分别在不同的硬件上进行，数据来回传输非常耗电。

对于基于 Transformer 的 LLM 而言，这个问题尤其要命，因为每次生成一个词，它都得把查询和写了一半的答案从内存搬运到处理器上。马内亚及其同事估算，用增益单元代替传统 GPU，能把 Transformer 类 LLM 里能耗最高的部分所消耗的能量降低四个数量级。但马内亚表示，增益单元还需要进一步改进才能得到更广泛的应用。

既能存储信息又能进行计算的器件概念，是“神经形态”计算的一个核心理念。这是一个正在蓬勃发展的新兴计算机工程领域，其灵感来自人脑——要知道，人脑的能耗比计算机低了好几个数量级。另一项受大脑启发的发明是这样一种芯片，其不用连续数据流来编码信息，而是像人类神经细胞那样，用电压脉冲在系统中传播的时间来编码。让芯片的各个部分在不用的时候保持休眠状态，“就有可能压低能耗。”英国谢菲尔德大学的生物启发机器学习专家埃莱尼·瓦西拉基（Eleni Vasilaki）表示。