日前,英伟达在官方博客发布技术长文,首次完整披露即将量产的VeraRubin平台所搭载的45℃全面液冷方案,这将是“数据中心历史上最重要的能效突破之一”。
在AI芯片功耗持续走高、单机柜功率不断突破上限的当下,英伟达推出这套反常识的“高温冷却”技术,其散热能力如何?算不算是技术新突破?
一、为什么是45℃温度?
多数人对冷却的固有认知是“温度越低效果越好”,但英伟达这套方案偏偏反其道而行之。
直白一点来说,我们家用热水浴缸的常规水温在38-40℃,普通人浸泡15分钟左右就需要起身休息,而Rubin平台的冷却液入口温度最高可达45℃,比日常洗澡水还要高。
为什么要设定45℃?
英伟达工程师的核心逻辑在于从根源削减冷却侧的能源消耗。
传统数据中心的制冷系统往往要承担全站40%左右的电力消耗,过往的低温液冷方案,更是依赖大功率冷水机组持续制冷,才能维持20-30℃的冷却液工作温度。
在全球多数气候区域,仅靠室外干式冷却器与环境换热,就足以将冷却液降温至工作温度,无需启动高能耗的机械冷水机组与机房风扇。
官方测算数据显示,这套方案可将数据中心PUE从传统风冷架构的1.3-1.5压低至1.1左右,超大规模部署场景下,每兆瓦IT容量可节省约100万美元资本支出。
与此同时,传统冷却塔蒸发带来的巨量耗水也被近乎消除,每兆瓦年用水量可从260万加仑降至接近零。
因此,英伟达的45℃液冷技术,解决了高算力集群长期被诟病的水资源消耗痛点。
二、全球首个实现100%全液冷的AI计算平台
液冷并非行业新鲜事物,但此前的主流方案均为混合散热架构——仅GPU、CPU等核心高功耗芯片贴装冷板,内存、网卡、电源等组件仍依赖风扇风冷。
而Rubin平台是全球首个实现100%全液冷的AI计算平台,从GPU、CPU到网络交换芯片、高速光模块乃至供电模块,所有发热元件全部接入密闭液冷回路,整机不再保留任何风扇组件,即只有液冷没有风冷。
为了实现全部件液冷,英伟达热设计团队重构了整套冷却回路架构,最直观的变化体现在外观与密度上。
1、外观上,传统风冷服务器布满通风孔的前面罩,被完全密封的整洁面板取代,机房内不再需要预留复杂的风道空间。
2、密度上,过去需要6个机架单元才能容纳的算力系统,如今仅需2个单元即可部署,单机柜功率承载能力直接突破200kW,是传统风冷机柜的数倍之多。
目前这套液冷方案已被写入英伟达DSXAI工厂参考设计,成为下一代智算中心的标准化建设蓝图。
写在最后
按照英伟达此前公布的时间表,VeraRubin平台将于今年秋季正式启动量产并开始出货。从本质上看,45℃液冷不是一次简单的技术参数升级,而是算力产业发展到新阶段的必然产物。
当单芯片功耗、集群规模走到风冷的物理边界,整个行业不得不从底层重构散热与能源体系。而英伟达通过将全液冷写入标准参考设计,事实上已经为下一代智算基础设施划定了新的行业门槛,接下来一到两年,全球数据中心都将迎来一轮强制性的液冷升级周期。