热力学之墙:AI扩展定律与物理基础设施的碰撞

· Charlie Feng

执行摘要

全球技术基础设施行业正处于一个由两股对立力量定义的悬崖边:人工智能(AI)扩展定律的指数轨迹,以及物理热力学和公用事业基础设施的线性、刚性约束。本报告对这一“热力学之墙”进行了详尽的深度研究分析,这一障碍威胁要在未来十年内阻碍前沿AI模型的进步。 本分析的核心论点是,由过剩电网容量和环境空气冷却补贴的无限制数字增长时代已经结束。我们正在进入“物理AI”阶段,智能的主要瓶颈不再是算法或硅基的,而是热力学和地质学的。电子的稀缺性、排热能力和能量传输的密度将决定AI军备竞赛的赢家。

collision

我们的分析预测,到2030年,最大规模的AI训练运行将需要4到10千兆瓦(GW)的电力——相当于多个核电站的输出——而推理工作负载将产生与国家工业消耗相媲美的长尾能源需求。[^1] 这条需求曲线直接与美国电网发生冲突,后者的特点是互连队列平均耗时五年,且制造业难以生产用于下一代核反应堆的高纯度低浓缩铀(HALEU)。[^2] 本报告剖析了这种碰撞的机制,探讨了基础设施不对称中可用的杠杆点(如硅光子学、有源电缆和软件定义电力),并概述了2025年的最佳“绿色计算”战略。报告认为,虽然热力学之墙是巨大的,但它作为必要架构演变的强制功能,推动行业向液冷、现场发电和光互连发展。分析借鉴了“行星森林”模型的概念,作为“巴别塔”方法的对立面,建议从单一的中心化转向分布式的仿生弹性。[^4]


第1部分:墙的机制——能源、熵与AI扩展

要理解热力学之墙,首先必须量化撞击它的力量。对计算的需求不仅在增长;它正在经历由分析型AI向生成型和推理型模型转变驱动的相变。这种转变代表了经济价值创造与能源效率的根本脱钩,威胁要使智能的边际成本在能源上变得不可持续。

1.1 定律的碰撞:摩尔、库米与扩展

历史上,数据中心行业依赖于摩尔定律(晶体管密度翻倍)和库米定律(每焦耳计算量每1.57年翻倍)之间的共生关系。这种效率允许性能呈指数级增长,而能源消耗没有相应的爆炸式增长。然而,当前的大语言模型(LLM)和生成式AI时代已经打破了这种平衡。 训练前沿模型的计算需求大约每六个月翻一番,远远超过了硬件的效率增益。[^5] 这种分歧造成了巨大的能源赤字。例如,训练GPT-3大约需要1.29 GWh,而GPT-4估计消耗了超过50 GWh——仅一代就增加了40倍。[^6] 这不仅仅是现有工作负载的扩展,而是数字认知“代谢率”的根本变化。 这种需求的物理表现是功率密度。传统的企业数据中心机架运行在7-10 kW。当前利用NVIDIA H100或Blackwell架构的AI就绪机架需求从40 kW到超过100 kW。[^6] 密度的十倍增加打破了三十年来定义数据中心架构的标准风冷模型。“热力学之墙”部分是一场排热危机:空气根本不足以带走20平方英尺范围内100 kW硅片产生的废热。 此外,“认知的造林架构”指出,我们正在接近“能源墙”,即额外智能的边际成本超过产生的经济价值。[^4] 使用当前的硅架构模拟人脑活动将需要数十亿瓦特的能量——比仅需20瓦特运行的生物大脑多出$10^9$倍。[^4] 这种差异突显了当前“暴力”扩展范式的严重热力学低效,需要转向仿生和神经形态架构以绕过这堵墙。

1.2 能源的分流:训练与推理

一般能源分析中经常忽略的一个关键区别是AI训练和AI推理的不同热力学特征。这两种工作负载对电网施加根本不同的压力,需要不同的基础设施策略。

mechanics

1.2.1 训练:千兆瓦的尖峰

训练前沿模型需要大规模的同步计算集群。这些工作负载在地理上是灵活的,但在整体规模上是能源密集的。它们代表了AI时代的“工厂”。

1.2.2 推理:分布式的洪水

推理——查询模型的过程——是“墙”变得普遍且难以管理的地方。

指标 AI 训练 AI 推理
主要约束 总发电能力 (GW) 延迟与本地电网容量
功率密度 极高 (每机架100kW+) 高到中等 (20-50kW)
地理灵活性 高 (可远程) 低 (必须靠近用户)
能源行为 持续数月的巨大负载 突发、昼夜 (随“做梦”智能体转变为持续)
2030能源份额 ~AI能源的40% ~AI能源的60% [^10]
电网互动 传输级连接 配电级 / 城市边缘连接

1.3 排热极限

热力学规定,处理器消耗的所有能量最终都会转化为热量。一个100 MW的数据中心实际上就是一个100 MW的加热器。移除这些热量的效率由电源使用效率(PUE)衡量,但PUE仅衡量总功率与IT功率的比率;它并不能解决热传递密度的物理问题。 风冷的失败:在每机架30-40 kW以上的密度下,风冷在物理上变得不切实际。空气的热容量很低($C_p \approx 1.005$ J/g·K)。为了用空气带走100kW机架产生的热量,所需的气流量体积要求风扇以消耗过多能量(寄生负载)的速度运行,并产生可能损坏硬盘和敏感组件的危险声学振动。[^11] 如果不将入口温度降低到会导致冷凝问题的水平,所需的“Delta T”(温差)将变得无法管理。 液体转型:这一物理极限正在推动向液冷的强制迁移。水的比热容约为空气的4倍($C_p \approx 4.18$ J/g·K),导热率约为空气的24倍。


第2部分:物理约束——电网与“通电时间”

虽然热量可以通过液冷等工程解决方案来管理,但电力必须有来源。这正是AI行业面临的最坚硬、最不可移动的墙:美国电网。电网是发电、输电和配电的复杂机器,目前未能跟上AI的指数级需求。

2.1 互连队列积压

美国电网正在经历前所未有的拥堵。“互连队列”——新发电和大型负载连接等待批准并物理连接到电网的等候名单——已成为数据中心发展的主要瓶颈。截至2024年底,有超过2,600 GW的发电和储能项目在互连队列中等待——是该国现有装机容量的两倍多。[^3]

2.2 “通电时间”作为新货币

对于超大规模企业(微软、亚马逊、谷歌、Meta)而言,“通电时间”这一指标已取代成本。将AI集群部署推迟两年的机会成本,是在通往通用人工智能(AGI)竞赛中损失的数十亿美元市场份额。

2.3 “搁浅电力”悖论

尽管短缺,现有数据中心中仍有大量电力是“搁浅”的——已供应但未使用。这种低效是保守工程和传统基础设施无法适应动态负载的副产品。


第3部分:能源来源——核能梦想与地质现实

该行业声称的应对热力学之墙的长期解决方案是核能,特别是小型模块化反应堆(SMR)。其愿景是优雅的:小型、工厂制造的反应堆与数据中心共址,提供无碳、始终在线的基本负载电力。然而,深入研究分析揭示了未来十年内的炒作与运营现实之间存在巨大差距。

3.1 SMR的承诺与企业押注

小型模块化反应堆承诺工厂化制造核电,降低成本和部署时间。科技巨头已发出巨大兴趣信号,试图通过信号需求来启动供应链:

3.2 现实检验:NuScale与经济学

2023年末NuScale“无碳电力项目”(CFPP)的崩溃是该行业的一个重要警示故事。NuScale是行业的领跑者,也是唯一获得美国核管理委员会(NRC)批准的SMR设计。

3.3 燃料墙:HALEU短缺

也许最关键但讨论不足的限制是燃料本身。大多数先进的SMR设计(包括X-energy和TerraPower的设计)都需要高纯度低浓缩铀(HALEU),浓缩度为5-20%的U-235。标准反应堆使用3-5%的低浓缩铀(LEU)。


第4部分:杠杆——基础设施不对称

鉴于电网升级和核能部署缓慢(5-10年),行业必须在“快速”基础设施中寻找杠杆。这涉及优化电网和芯片之间的层级,利用技术可以比混凝土和物理学移动得更快的的不对称性。

leverage

4.1 互连瓶颈:共封装光学(CPO)

随着GPU集群扩展到100,000+个单元,网络变成了计算机。然而,在芯片之间移动数据消耗了总电力预算中越来越大的比例。

4.2 硅光子学(SiPh)

硅光子学是启用CPO的底层技术。通过使用标准CMOS半导体工艺制造光学组件,SiPh允许将激光器和调制器直接集成到硅芯片上。[^32]

4.3 布线革命:AEC vs. DAC vs. AOC

在机架内部,一场关于布线的悄然革命正在发生,以节省电力和空间。电缆的选择决定了气流、功耗和覆盖范围。 表2:数据中心布线技术比较

特性 DAC (直连铜缆) AEC (有源电缆) AOC (有源光缆)
功耗 零 (无源) [^34] 低 (每端~1-2W) [^35] 中/高 (每端2W+) [^34]
覆盖范围 (在400G+) 短 (<3 米) 中 (5-7 米) 长 (100m+)
成本 最低 中等 (中间地带) 最高
气流影响 笨重,粗线径阻碍气流 较细线径,气流更好 最细,气流最好
用例 机架顶部 (ToR) 机架间 / 行内 跨大厅 / 长途
* AEC (有源电缆):AI集群的“恰到好处”解决方案。它使用铜,但包括重定时器芯片来清洁信号。

4.4 冷却剂分配单元(CDU)

冷却剂分配单元(CDU)已成为关键的杠杆。它是液冷回路的“心脏”,管理冷却剂的流量、压力和温度。[^36]

4.5 数据压缩:“做梦”的杠杆

除了硬件之外,数据缩减中也存在软件杠杆。Atombeam和Neurpac利用“码字”在源头压缩数据,在不牺牲准确性的情况下优化带宽。[^9]


第5部分:最佳策略——“绿色计算”论点(2025)

基于这些力量的碰撞,我们提出了2025年的战略框架:“绿色计算”论点。该策略超越了肤浅的ESG目标,转向在电力受限的世界中的运营生存。它采用“行星森林”模型——一种分布式、弹性和生物启发的途径——而不是“巴别塔”中心化扩展模型。[^4]

strategy

5.1 策略1:效率即新容量

在电网电力受限的情况下,扩展计算的唯一方法是从同一瓦特中提取更多操作。

5.2 策略2:“孤岛模式”转向

依赖公用事业电网现在是一个战略风险。“孤岛模式”策略涉及建设可以独立或半独立于电网运行的数据中心。

5.3 策略3:冷却改造

现有的风冷设施对于AI资产正变得过时。

5.4 策略4:造林方法(“森林模型”)

借鉴“认知的造林架构”,最佳策略拒绝“巴别塔”模型(无限中心化),支持“行星森林”。[^4]


结论:墙作为过滤器

热力学之墙不是终结AI进步的硬性停止。相反,它是一个进化过滤器。它将扼杀低效的架构和投机的“僵尸”项目。暴力扩展的时代——将更多H100投入由压力巨大的电网供电的风冷机架——已经结束。 未来5-10年将由架构的优雅定义:

  1. 热优雅:用液体(CDU)移动热量,而不是空气。
  2. 光学优雅:用光子(硅光子学)移动数据,而不是电子。
  3. 能量优雅:现场发电(燃料电池)并用软件(SDP)管理它。 对于投资者和战略家来说,阿尔法不在于GPU制造商(面临商品化),而在于热力学之墙的“镐和铁锹”:CDU、UQD、硅光子学、AEC和SMR燃料链的制造商。这些是允许翻越这堵墙的技术。AI与物理学之间的碰撞将是2020年代后期的决定性工业叙事,迫使数字世界最终尊重物理世界的定律。 表3:“绿色计算”投资矩阵(2025-2030)
部门 “买入”论点(杠杆) “卖出” / 风险论点 主要参与者
冷却 液体CDU和UQD。>50kW机架必不可少。配件/流体的经常性收入。 传统CRAC/CRAH。风冷对于前沿AI已死。 Vertiv, nVent, CPC, Stäubli, CoolIT, DCX
发电 燃料电池和燃气轮机。唯一的“快速”电力。 SMR(短期)。HALEU短缺和监管延迟推至2030+。 Bloom Energy, Mitsubishi, Centrus(长期)
互连 硅光子学 (CPO) 和 AEC。解决I/O功率瓶颈。 可插拔收发器(长距离)。对于集群内来说太耗电。 Broadcom, Marvell, DustPhotonics, Credo
软件 软件定义电力。解锁30%“免费”容量。 传统DCIM。被动监控是不够的;需要控制。 Virtual Power Systems, Uplight
电网 传输组件。变电站的变压器/开关设备。 投机性太阳能/风能。互连队列扼杀IRR。 Eaton, Siemens, Hubbell

引用文献

[^1]: AI 2030 - final version - Epoch AI, accessed December 21, 2025, https://epoch.ai/files/AI_2030.pdf [^2]: Centrus Reaches 'Critical Milestone' With 900 Kilogram Haleu ..., accessed December 21, 2025, https://www.nucnet.org/news/centrus-reaches-critical-milestone-with-900-kilogram-haleu-delivery-to-us-doe-6-1-2025 [^3]: Clean Energy Interconnection Backlog—2025 Trends & Insights, accessed December 21, 2025, https://www.zeroemissiongrid.com/insights-press-zeg-blog/interconnection-backlog/ [^4]: (PDF) The Silvicultural Architecture of Cognition - ResearchGate, accessed December 21, 2025, https://www.researchgate.net/publication/398664899_The_Silvicultural_Architecture_of_Cognition [^5]: ENVIRONMENTAL IMPACTS OF ARTIFICIAL INTELLIGENCE, accessed December 21, 2025, https://www.oeko.de/fileadmin/oekodoc/Report_KI_ENG.pdf [^6]: Electricity Demand and Grid Impacts of AI Data Centers - arXiv, accessed December 21, 2025, https://arxiv.org/html/2509.07218v4 [^7]: AI power: Expanding data center capacity to meet growing demand, accessed December 21, 2025, https://www.mckinsey.com/industries/technology-media-and-telecommunications/our-insights/ai-power-expanding-data-center-capacity-to-meet-growing-demand [^8]: Research summary - Ethan Wicker, accessed December 21, 2025, https://ethanwicker.com/2025-10-07-research-summary-energy-use-of-ai-inference/ [^9]: Invest in Atombeam | StartEngine, accessed December 21, 2025, https://www.startengine.com/offering/atombeam [^10]: Chipping Point - Greenpeace, accessed December 21, 2025, https://www.greenpeace.org/static/planet4-eastasia-stateless/2025/04/5011514f-greenpeace_chipping_point.pdf [^11]: Data Center Liquid Cooling Market Outlook and Forecast 2025-2030, accessed December 21, 2025, https://www.marknteladvisors.com/research-library/data-center-liquid-cooling-market.html [^12]: Data Center Liquid Cooling Market Size, Companies & Share Analysis, accessed December 21, 2025, https://www.mordorintelligence.com/industry-reports/data-center-liquid-cooling-market [^13]: Data Center Liquid Cooling Market | Size, Share, Growth | 2025 - 2030, accessed December 21, 2025, https://virtuemarketresearch.com/report/data-center-liquid-cooling-market [^14]: The US interconnection queue is twice its installed capacity, accessed December 21, 2025, https://www.latitudemedia.com/news/the-us-interconnection-queue-is-twice-its-installed-capacity/ [^15]: Power Demand Forecasts Revised Up - Grid Strategies, accessed December 21, 2025, https://gridstrategiesllc.com/wp-content/uploads/Grid-Strategies-National-Load-Growth-Report-2025.pdf [^16]: Data center executives pivot toward onsite power, per new report, accessed December 21, 2025, https://www.power-eng.com/onsite-power/data-center-executives-pivot-toward-onsite-power-per-new-report/ [^17]: Reliable Data Center Power Solutions - Bloom Energy, accessed December 21, 2025, https://www.bloomenergy.com/industries/data-center-power/ [^18]: Microsoft to Build Data Center Powered by Gas Fuel Cells, accessed December 21, 2025, https://www.power-eng.com/gas/turbines/microsoft-to-build-data-center-powered-by-gas-fuel-cells/ [^19]: Google signs first contract to capture emissions at natural gas plant, accessed December 21, 2025, https://trellis.net/article/google-funding-new-natural-gas-plant-outfitted-carbon-capture-storage/ [^20]: Top 40 Data Center KPIs, accessed December 21, 2025, https://img.datacenterfrontier.com/files/base/ebm/datacenterfrontier/document/2022/09/1663627559004-eb016_sunbird_ebook_top_40_data_center_kpis.pdf?dl=1663627559004-eb016_sunbird_ebook_top_40_data_center_kpis.pdf [^21]: VPS CEO Dean Nelson on Flipping Data Centers' Wasteful Status Quo, accessed December 21, 2025, https://www.datacenterknowledge.com/sustainability/vps-ceo-dean-nelson-on-flipping-data-centers-wasteful-status-quo [^22]: Virtual Power Systems Software Defined Power Selected by SAP, accessed December 21, 2025, https://eepower.com/news/virtual-power-systems-software-defined-power-selected-by-sap/ [^23]: Big Tech's Nuclear Bet: Key Small Modular Reactors for Cloud Power, accessed December 21, 2025, https://www.wwt.com/blog/big-techs-nuclear-bet-key-small-modular-reactors-for-cloud-power [^24]: Executive Summary – The Path to a New Era for Nuclear Energy - IEA, accessed December 21, 2025, https://www.iea.org/reports/the-path-to-a-new-era-for-nuclear-energy/executive-summary [^25]: NuScale cancels first planned SMR nuclear project due to lack of ..., accessed December 21, 2025, https://www.thechemicalengineer.com/news/nuscale-cancels-first-planned-smr-nuclear-project-due-to-lack-of-interest/ [^26]: The collapse of NuScale's project should spell the end for small ..., accessed December 21, 2025, https://www.utilitydive.com/news/nuscale-uamps-project-small-modular-reactor-ramanasmr-/705717/ [^27]: Building Fuel Supply Chains for SMRs and Advanced Reactors, accessed December 21, 2025, https://www.iaea.org/bulletin/fuelling-the-future-building-fuel-supply-chains-for-smrs-and-advanced-reactors [^28]: High-Assay Low-Enriched Uranium (HALEU), accessed December 21, 2025, https://world-nuclear.org/information-library/nuclear-fuel-cycle/conversion-enrichment-and-fabrication/high-assay-low-enriched-uranium-haleu [^29]: A Key Technology Path for Optical Interconnects in AI Data Centers, accessed December 21, 2025, https://www.naddod.com/blog/cpo-optical-interconnects-in-ai-data-centers [^30]: Energy Efficiency in Co-Packaged Optics, accessed December 21, 2025, https://www.senko.com/energy-efficiency-in-co-packaged-optics/ [^31]: Co-Packaged Optics in Modern Data Centres - ahmedjama.com, accessed December 21, 2025, https://ahmedjama.com/blog/2025/05/co-packaged-optics-in-modern-datacenter [^32]: How silicon photonics is powering the AI data center revolution, accessed December 21, 2025, https://blog.st.com/data-silicon-photonics-ai/ [^33]: Silicon Photonics for Data Centers | DustPhotonics, accessed December 21, 2025, https://www.dustphotonics.com/unlocking-the-potential-of-silicon-photonics/ [^34]: DAC vs AOC Cables: Complete 2025 Data Center Guide (with AEC), accessed December 21, 2025, https://network-switch.com/blogs/networking/dac-vs-aoc-cables-the-guide-2025 [^35]: Active Electrical Cables (AEC): Enabling High-Speed Connectivity, accessed December 21, 2025, https://www.fs.com/blog/active-electrical-cables-aec-enabling-highspeed-connectivity-41201.html [^36]: CDUs: Enabling High-Density Cooling for AI Data Centers, accessed December 21, 2025, https://airsysnorthamerica.com/behind-every-ai-breakthrough-the-cdu-technology-enabling-high-density-cooling/ [^37]: Coolant Distribution Units CDU for Data Center Market Outlook 2025 ..., accessed December 21, 2025, https://www.intelmarketresearch.com/coolant-distribution-units-for-data-center-2025-2032-386-4497 [^38]: Coolant Distribution Units (CDU) for Data Center Market Size, accessed December 21, 2025, https://reports.valuates.com/market-reports/QYRE-Auto-13Y17027/global-coolant-distribution-units-cdu-for-data-center [^39]: The Soaring Rise of Universal Quick Disconnect (UQD) Couplings, accessed December 21, 2025, https://www.intelmarketresearch.com/blog/60/universal-quick-disconnect-coupling-for-liquid-cooling-market [^40]: Virtual Power Plant Solutions - Uplight, accessed December 21, 2025, https://uplight.com/solutions/virtual-power-plant/ [^41]: Understanding Coolant Distribution Units (CDUs) for Liquid Cooling, accessed December 21, 2025, https://www.vertiv.com/en-us/about/news-and-insights/articles/educational-articles/understanding-coolant-distribution-units-cdus-for-liquid-cooling/