AI能源危机:数据中心能源需求如何化解?
发布日期:2025/8/22
化危机为机遇
人工智能革命引发了前所未有的电力需求激增。到2030年,人工智能数据中心可能会在全球范围内推动相当于为7500万美国家庭(1亿千瓦)的额外电力需求。这一变化对美国电力行业来说是一个巨大的转变,该行业在过去二十年中几乎习惯了零增长,而建设额外的产能可能需要十年时间。现有电力系统与不断飙升的人工智能需求之间的这种不匹配可能导致瓶颈,要么给电网带来前所未有的压力,要么阻碍人工智能的发展。
然而,人工智能工作负载性质的根本转变可能提供了一种过渡解决方案。与当今数据中心运行的大多数工作负载相比,人工智能训练和推理可以暂停并进行更大程度的负载平衡。这种灵活性为“削减计划”打开了大门,数据中心可以在一年中的大部分时间以全速运行,但在电网压力较大时,可以暂时放慢速度,每次持续几个小时。削减计划有巨大的潜力释放潜在的电力,因为电网从未为平均需求而设计,而是为需求最高时设计的,例如在最热的夏季午后。因此,在一年中的大部分时间里,大量的发电和输电处于闲置状态。对于科技公司来说,失去那最后一点正常运行时间,以解锁今天可用的千兆瓦级电力,是一个很小的代价,因为在执行速度至关重要的行业中,速度是关键。
如果借助削减计划,人工智能数据中心没有压垮电网,而是成为最终释放这种闲置容量的缓冲器,那会怎样?削减计划可以提高现有电力基础设施的利用率,创造的价值将惠及公用事业公司和缴费人。这些为人工智能数据中心开创的更高效的使用模式,也可以重塑我们对电网运营的整体思考方式,并使我们的电网更加适应间歇性电源,如太阳能和风能。人工智能的电力挑战不仅仅是保持电力供应,而是一场代际压力测试,迫使我们重新想象我们如何使用电网本身。
数据中心正常运行时间假设引发了人工智能电力危机
要理解人工智能工作负载对电网规划的革命性影响,我们首先必须了解过去几十年定义数据中心基础设施的严格要求。到目前为止,数据中心行业一直以最大化正常运行时间为中心,即数据中心保持完全通电和运行的总时间比例。对于数据中心开发商来说,更高的正常运行时间直接转化为更可靠的服务,为终端用户提供服务,并能够向租户收取更高的费用。
根据可靠性,数据中心被分为不同的等级,更高等级的建设成本更高,因此租金也更高。最常见的等级是三级,实现了99.982%的正常运行时间(每年1.6小时的停机时间)。但行业的可靠性重点体现在四级数据中心,其正常运行时间达到99.995%,每年只有26分钟的停机时间,但建设成本是获得最终0.013%性能提升的两倍。即使是最低等级的一级数据中心,也期望保持99.671%的年正常运行时间。如果客户不需求更高的可靠性,开发商就不会建设更具资本密集型的四级数据中心。高性能企业数据库通常会增加更多的冗余,以实现令人羡慕的“五个九”可靠性(99.999%)。
在人工智能基础设施中,速度和规模胜过完美的正常运行时间
数据中心行业一直基于这样的前提运作:计算工作负载是不灵活的,提供极其可靠的电力和即时响应时间至关重要。这些假设直到最近都是合理的,因为直到人工智能热潮之前,数据中心仅占电网电力需求的相对较小部分,而总体需求是平稳的或下降的。
这种运营模式现在已经过时了。人工智能计算是传统云计算的范式转变,因为规模和上市速度现在比正常运行时间更重要。对于人工智能公司来说,上市时间至关重要,因为更快的电力部署创造了强大的飞轮效应。更快的电力创造了良性循环:它允许人工智能基础设施更快地扩展,这反过来又允许更快地部署新模型,这随后产生了更多的使用和数据,这些数据为下一代人工智能模型提供了动力。
这种循环使速度成为人工智能中最终的竞争优势之一。在人工智能中的竞争优势来自于最快地部署最大模型,而不是实现99.995%与99.671%正常运行时间(最可靠的数据中心与最简单数据中心之间的差距)之间的差距。超高可靠性已经退居次要地位。也许最清楚的说明是,如今的人工智能服务已经以与传统数据中心基础设施最低等级相当的正常运行时间水平运营,尽管对最新和最伟大的模型的需求激增。
灵活性革命:人工智能如何实现削减负荷
这种新模型突出了人工智能计算的一个关键特点,如果明智地利用,可以缓解对电网日益增长的压力。人工智能工作负载在何时何地执行方面具有惊人的灵活性,这可以缓解失去那最后百分比正常运行时间所带来的挑战。人工智能训练——“教授”模型通过处理大量数据集的过程——可以使用“检查点”暂停和恢复,就像你可以在关闭电脑之前保存文档草稿,然后再稍后返回一样。这意味着在计划的停机期间,训练可以暂停,并在电力恢复时恢复,或者被重定向到另一个数据中心。
大型语言模型(LLM)推理——运行人工智能模型以生成用户响应的过程——与传统云工作负载相比也具有很高的灵活性。这是因为人工智能推理的计算强度相对较高,与传统工作负载(如加载网页)相比,推理受到响应生成时间的限制,而不是网络延迟。
很难说明这种转变的重要性。传统的网络应用让用户习惯了闪电般的响应速度。领先科技公司的研究表明,页面加载时间的0.1秒改进可以为零售网站带来8-10%的转化率提升。当页面加载时间从1秒延长到3秒时,跳出概率增加了32%。在10秒时,它飙升了123%。这种对毫秒的执着塑造了自互联网诞生以来的数字基础设施。
例如,ChatGPT生成一个大致与本文这一节长度相当的响应大约需要20秒。为了形象化这一点,考虑一个在纽约的用户正在查询东京的一个数据中心,其中网络延迟——信号在两地之间传输的时间——大约是每个方向170毫秒。这种延迟对于传统网络应用来说(例如>10%的零售销售转化率下降!)是非常有害的,但对于人工智能来说却无关紧要。这种容忍度意味着人工智能应用可以跨大陆进行负载平衡,这是在对毫秒痴迷的网络时代不可能实现的,允许公司访问更便宜的电力和电网容量,无论它在何处可用,而不会牺牲用户体验。
随着计算时间延长,人工智能推理工作负载的灵活性变得更加明显,例如在复杂的12研究、编码或分析任务13中,人工智能代理通常可以运行数十分钟。当计算时间延长到这么长时,即使是纽约和东京之间的100次往返(大约17秒)与用户收到最终回复所需的总时间相比也变得微不足道。
人工智能代理的兴起从根本上改变了用户对新一类“设置后即可忘记”任务的期望。虽然传统的网络应用要求持续实时关注并几乎立即响应,就像杂耍一样,人工智能任务更像是旋转盘子,用户可以同时启动多个进程,这些进程将运行几分钟,而无需对每个进程进行密切和持续的关注。
过渡解决方案:利用美国电网的闲置容量
人工智能工作负载的灵活性为美国能源系统带来了两个突破。首先,当能源电网达到容量时,人工智能公司可以在高峰时段暂停某些工作负载,暂时减少需求。其次,人工智能数据中心可以在更大的地理空间内进行负载平衡,将计算工作和电力需求路由到任何给定时刻电网容量最可用的地方。
那么,对于电力公司和基础设施投资者来说,关键问题不仅仅是是否建设新的电力,还有如何在新电力上线之前弥合差距。美国电力电网是为高峰需求而建的,例如在最热的夏天,空调使系统承受压力,而不是平均需求。这种策略意味着大部分时间都有多余的闲置容量。因此,到2030年获得100吉瓦电力的答案可能就隐藏在眼前:利用现有的闲置容量。利用闲置容量的计划提供了在建设新基础设施的漫长过程中快速上线大量电力的可能性。
这一方案的好处不仅限于人工智能公司,还延伸到公用事业公司、缴费人和基础设施投资者,因为它可以解决一个基本的经济挑战:电网利用率低。大多数电网基础设施的运行容量大约为53%,这意味着数十亿美元的固定资产处于闲置状态。然而,灵活的人工智能工作负载允许公用事业公司将这些固定成本分摊到更多的负载上,降低所有缴费人的单位成本,而不会在高峰时段增加压力。对于电力投资者来说,这代表了一个巨大的机会,通过在相同的固定成本基础上增加收入,从发电和输电资产中提取更多价值。
结论:人工智能数据中心可以成为电网资产
主流观点将人工智能视为一场能源末日,将压垮我们的电力电网。我们则认为恰恰相反:人工智能数据中心可以成为电网资产,释放目前因过时的高峰需求规划而受限的巨大容量。通过将人工智能的计算灵活性与电网对需求响应的需求相结合,我们可以立即使用已经建成并支付的电力基础设施来扩大容量。
在人工智能领域,上市速度创造了决定性的竞争优势。更快地部署更大模型的公司获得了用户数据,为下一代模型提供了动力,从而形成了一个良性循环,早期行动者不断巩固他们的领先地位。与此同时,随着中国在没有美国面临的电网限制的情况下扩大其人工智能基础设施,地缘政治竞争加剧。美国不能让电力限制成为瓶颈,将人工智能领导权拱手让给竞争对手。
我们正在见证一个独特的融合,这为我们提供了一个追求灵活性以弥合数据中心需求和电力供应之间差距的窗口机会。在供应方面,美国电网正在发生根本性的变化,就像它上面的人工智能工作负载一样。间歇性可再生能源正在取代可预测的化石燃料电力来源,使电力生产本质上变得不稳定,而不是按需调度。这一供应方面的革命意味着需求方面也必须改变。消费模式不能再假设电力总是随需随有。能源系统必须从单向服务的基础设施——即供应端竭力满足一切需求——转变为供需双方持续动态博弈的双向优化体系。
来源:高盛全球研究所、国际能源小数据