英伟达Blackwell把算力推上了新台阶,也把数据中心的热量推到了新高度。
Vertiv在2024年发布了与英伟达共同开发的GB200 NVL72参考架构,单柜最高支持132千瓦。TrendForce在2025年判断,AI数据中心液冷渗透率将从2024年的14%升至2025年的33%。
电力、机柜、温控、管路、冷却液和运维系统越来越重要。
GPU越贵,散热越值钱。算力越紧急,机房越像一座高密度能源工厂。芯片负责计算,电力负责供能,液冷负责让昂贵的芯片持续满血工作。
风冷的时代正在被挤压
过去的数据中心,服务器摆进机柜,机房通过空调、风机、冷通道、热通道来控制温度。风从冷通道进入,把服务器里的热量带出来,再由空调系统处理。大多数传统互联网业务,靠这套系统还能支撑。
AI机柜的功率密度上来以后,GPU密集堆叠,机柜内部热量急剧上升。风冷越来越吃力。空气的导热能力有限,风扇越转越快,空调越开越猛,耗电越来越高,噪音和空间压力也一起上来。
一旦风冷带不走热量,GPU就会降频。一旦降频,训练速度下降,推理成本上升,昂贵的芯片没法保持高效率运行。对于云厂商、AI服务商和智算中心来说,降热已经成为成本问题、效率问题、交付能力问题。
液冷为什么突然变重要
液冷走到台前,第一层原因是芯片功耗提升。
AI芯片已经不再是一块单独工作的计算卡。它正在变成整柜、整集群协同运行的系统。英伟达GB200 NVL72把72颗Blackwell GPU放进机柜级系统中,功率密度远高于传统服务器。
机柜越密,热源越集中。风冷像用空调给整间屋子降温,液冷则更接近把散热系统贴到热源旁边。冷板式液冷把冷板贴近芯片,通过液体循环带走热量。浸没式液冷更进一步,把服务器放进特殊冷却液中,让热量直接被液体吸收。
液体带走热量的能力远高于空气。AI机柜功率越高,散热就越要靠近芯片本身。
第二层原因是能效被重新定价。
过去PUE更多是绿色数据中心指标,用来衡量机房能源使用效率。到了AI时代,PUE直接影响算力成本。冷却系统耗电越高,每一次训练、每一次推理、每一个token的成本都会被推高。
这就是液冷的现实价值。
它是在帮AI公司降低长期运营成本。买更强的GPU只是第一步,让这些GPU用更低能耗持续运行,是更难的一步。
第三层原因是数据中心的建设方式变了。
AI机房要同时处理电力接入、配电、UPS、温控、液冷循环、漏液监测、水处理、运维管理和系统冗余。冷板、CDU、泵、阀、管路、换热器、冷却液和监控系统要一起运行。
散热从设备采购,变成了系统工程。而目前更容易规模化的路线,是冷板式液冷。
它对现有服务器架构和机房改造更加友好,客户接受度更高,也更适合当前主流AI服务器。服务器内部的关键发热部件通过冷板带走热量,机房仍然可以保留部分风冷系统,整体改造难度相对低。
这也是为什么冷板式液冷更容易率先放量。
浸没式液冷效率更高,想象空间也更大。服务器直接浸入绝缘冷却液中,空气冷却的部分压力大幅下降。但它面对的问题也更多,比如冷却液材料兼容性、服务器维护习惯、长期可靠性、行业标准、客户心理门槛和资产改造成本。
对于超高密度AI集群来说,浸没式液冷会有更强吸引力。但从当下产业节奏看,冷板式液冷更像这一轮AI数据中心建设中的主流选择。
简单讲,冷板式液冷先吃当下需求,浸没式液冷等待更成熟的标准和更激进的机房形态。
产业链机会已经摊开
海外企业里,Vertiv、施耐德电气、伊顿、ABB、西门子、Johnson Controls都已经站在数据中心基础设施的重要位置。它们的优势不只在单个设备,而在电力、配电、温控、机房管理、全球客户和大型项目交付经验。
AI数据中心需要的不是一个零件,而是一整套能稳定运行的基础设施。
中国企业也在进入这条链条。
英维克、申菱环境、佳力图、科华数据、科士达、依米康等公司,都出现在数据中心温控、电源、机房环境控制和系统集成环节。随着国内智算中心、云厂商、运营商和第三方IDC推进高功率机柜建设,本土温控和液冷供应商的机会会继续增加。
AI数据中心的停机代价太高。GPU本身昂贵,训练任务昂贵,客户合同也昂贵。液冷系统一旦泄漏、腐蚀、堵塞或维护失控,损失可能远高于设备价格。
所以大客户选择供应商时,会非常谨慎。
谁有大规模案例,谁能通过长期验证,谁能提供稳定交付和持续服务,谁才可能真正进入核心供应链。
而标准还在演进。不同芯片平台、服务器形态、机柜设计和机房改造路线,都可能影响液冷方案选择。今天适合的系统,未来可能要重新适配。
当行业进入放量阶段,冷板、管路、泵阀、CDU等部分环节都会面临竞争加剧。真正能保住利润的企业,往往要靠系统能力、客户关系、认证壁垒和运维服务,而不是单纯卖硬件。
水资源和环保要求会影响数据中心选址。AI数据中心越来越像能源设施,电从哪里来,水从哪里来,热怎么处理,都会成为地方政府、运营商和云厂商必须考虑的问题。
客户架构也是变数。英伟达路线、其他AI芯片路线、自研芯片路线、云厂商自建路线,都会影响液冷需求的节奏和形态。
这个行业有机会,液冷会成长,但不会让所有公司一起受益。
算力的尽头,是工程能力
AI产业最开始拼模型,后来拼芯片,接下来一定会拼基础设施。
因为真正的大规模AI服务,靠的不是实验室里一次漂亮的演示,而是每天、每小时、每秒稳定运行的算力系统。
芯片决定上限,电力决定供给,散热决定持续性。
当单柜功率来到100千瓦以上,数据中心就不再是普通机房。它更像一座被压缩到极致的能源工厂。每一颗GPU都在制造热量,每一套冷却系统都在决定算力能不能持续释放。
这就是液冷产业被重新定价的原因。
过去散热是配套环节,今天它正在变成AI基础设施的核心环节。过去机房冷却系统藏在服务器背后,今天它已经站到台前,和GPU、电力、网络一起决定AI的真实成本。
AI越往后走,真正稀缺的东西会越来越清楚。
不是只有更强的芯片。
还有更便宜的电,更稳定的机房,更高效的液冷系统,以及能把这些东西全部整合起来的工程能力。
未来几年,算力产业链里最容易被低估的一条线,可能就是散热。GPU把AI推向高功率时代,液冷负责让这场算力竞赛继续跑下去。
责任编辑 | 汪鹏