首页
学习
活动
专区
圈层
工具
发布

塔能两相液冷:不止应付当下,更为未来芯片做好准备

塔能两相液冷:不止应付当下,更为未来芯片做好准备

摘要:塔能在自建实验室中,参照在编国家标准《数据中心冷板式液冷系统技术规范》(计划号20242362-T-469)的测试框架,使用高精度模拟热源(最大功率1500W,控温精度±0.5℃),贴合塔能两相冷板有效换热面进行极限测试。等效热流密度达600W/cm²,系统稳定运行无过热。测试中冷板饱和温度稳定在目标值±0.2℃以内,热源温度≤85℃。这不是仿真推算,而是实测数据。塔能不仅为当前700W芯片提供充足余量,更为未来1000W+芯片预留了散热空间。

一、为什么需要极限测试

1. 芯片功耗没有天花板

从NVIDIA A100(TDP 400W)到H100(TDP 700W),再到B200(TDP 1000W)——B200的1000W TDP几乎普遍要求直接液冷(NVIDIA官方产品规格书数据)。与此同时,芯片面积并未同比例增加,导致热流密度急剧攀升。行业数据显示,当前主流AI芯片平均热流密度已超100W/cm²,新一代产品达150-200W/cm²,内部热点区域更高(参考多家芯片厂商产品规格书及行业分析报告)。在这种趋势下,散热方案必须具备“超前部署”能力。今天购买的散热系统,如果只能勉强对付当前芯片,明年芯片升级时又要二次改造,造成重复投资。

2. 实验室极限测试的意义

真实服务器环境受限于芯片功耗、散热条件、安全边界,很难达到理论极限。因此,必须通过高精度模拟热源进行极限测试,验证散热系统的天花板在哪里。塔能采用最大1500W的模拟热源,贴合冷板有效换热面,系统稳定运行至热平衡,记录热源温度、冷板温度、功率、流量、压力等关键参数,并按有效换热面积等效换算热流密度。这种方法排除了服务器其他组件的干扰,直接验证冷板本身的极限能力。

3. 余量即投资保护

塔能600W/cm²的实测能力,意味着即使未来芯片功耗翻倍、面积缩小、热点集中,冷板仍然能够稳定压制。算力中心无需担心“今天买的散热,明天芯片升级就要换”。这种余量不仅节省了二次改造费用,还避免了改造期间的业务中断风险。从投资保护角度看,选择有余量的方案本身就是一种成本优化。

二、塔能极限测试方法与结果

1. 测试配置

塔能在自建实验室中进行测试,测试设备包括:高精度模拟热源(最大功率1500W,控温精度±0.5℃),贴合塔能两相冷板有效换热面;泵驱两相CDU提供循环动力,工质为环保氟化液;数据采集系统实时记录功率、温度、流量、压力。测试步骤为:系统稳定在预设饱和温度附近,启动热源并逐步增加功率至1500W,持续满载运行至热平衡,记录所有参数。

2. 测试结果

施加热源功率达到1500W,冷板饱和温度稳定控制在目标值±0.2℃以内。热源稳定温度≤85℃,远低于芯片安全工作上限。系统状态显示稳定运行,无过热、无沸腾异常、无压力波动。按冷板有效换热面积折算,等效热流密度达到600W/cm²。

3. 数据解读

600W/cm²意味着什么?以当前H100平均热流密度86W/cm²计算,塔能冷板的承受能力是其近7倍。即使考虑芯片内部热点(通常为平均值的2-3倍),塔能600W/cm²仍能覆盖300W/cm²以上的极端热点。按照AI芯片功耗每年增长约40-50%的速度,塔能方案可为未来3-5年的芯片升级提供散热余量。

三、真实GPU验证:从极限测试到实际应用

1. 三卡满载1小时测试

塔能在真实服务器上进行了GPU散热性能测试。测试平台为三卡并行服务器,搭载某旗舰级GPU(单卡TDP约575W)。测试工况为100%满载,连续运行1小时,冷板饱和温度设定为37℃。测试结果显示:三卡在持续满载运行中的核心温度稳定在74-77℃区间,冷板温度波动控制在≤0.01℃范围内。系统连续运行期间温度无明显上升趋势,热管理稳定性良好。

2. 对比分析

该GPU的TDP为575W,按芯片面积折算平均热流密度约100W/cm²。塔能冷板在实际运行中将核心温度稳定在74-77℃,波动极小,且距离芯片降频阈值(通常85-90℃)有10℃以上的安全余量。相比之下,常规单相水冷板在同一GPU上实测温度波动±5-8℃,峰值温度可达85℃以上,触发降频。

3. 测试结论

真实GPU测试进一步验证了实验室极限数据的可信度。三卡满载1小时核心温度稳定74-77℃,冷板波动≤0.01℃,降频事件归零。连续满载无温升趋势,热管理系统稳定可靠。芯片表面温度分布均匀,热应力显著降低,有助于延长GPU寿命。

四、行业对比:塔能600W/cm²处于什么水平

1. 与单相水冷对比

常规单相水冷板在热流密度超过150W/cm²时开始接近能力边界,需要极高流速和泵耗,且控温精度大幅下降。塔能两相冷板在600W/cm²下仍能稳定运行,换热系数是单相水冷的20倍以上,泵耗仅为1/5-1/10。

2. 与同类两相产品对比

市场上其他两相液冷产品(如热管型、被动式)通常没有公开的极限热流密度数据。据塔能市场调研及行业交流信息,同类产品多数实际承受能力有限。塔能600W/cm²加上泵驱主动控温,在业内处于领先水平。

五、实战案例:极限能力在真实场景中的价值

1. 某头部AI公司:为下一代芯片预留空间

该公司计划在2026年升级到下一代GPU(TDP预计1000W+)。他们评估了多家液冷方案,发现大部分产品只能勉强应对当前700W芯片,对1000W+没有把握。塔能提供了600W/cm²的测试报告,该公司最终选择了塔能。技术负责人表示:“我们不想每换一代芯片就折腾一次散热。塔能给了我们3-5年的安心。”

2. 某智算中心:应对负载峰值

该中心在实际运行中发现,某些AI训练任务的瞬时功耗峰值比标称TDP高出30%。单相水冷板在峰值时温度飙升,触发降频。塔能冷板在同样峰值下温度波动仅1.2℃,无降频。运维数据显示,改造后训练任务完成时间缩短了12%。该中心负责人说:“标称参数只能参考,实际负载往往更苛刻。塔能的余量让我们放心。”

3. 某芯片设计公司:验证工程样片

该公司在测试工程样片时,功耗和热流密度都超出预期,现有散热方案无法稳定运行。塔能提供了定制冷板,成功压制了样片的热量,使测试得以继续进行。该公司的热设计工程师评价:“我们自己的散热方案在200W/cm²就崩了,塔能居然能跑到600W/cm²。这给了我们修改芯片设计的信心。”

六、极限测试的启示:选散热要看余量

很多算力中心在选型时只看当前芯片功耗,认为“够用就行”。但AI芯片功耗的增长速度远超预期,且实际运行中负载峰值往往高于标称TDP。如果散热方案没有足够余量,可能面临两种情况:一是芯片升级时需要二次改造,增加投资和停机风险;二是日常运行中遇到负载峰值就降频,算力损失持续发生。

塔能600W/cm²的极限能力,为算力中心提供了充足的安全边界。这不仅是技术实力的体现,更是投资保护的承诺。塔能两相液冷,不止降温,更能精准控温——±1.5℃,让算力始终在线。塔能(江苏)科技有限公司,用实测数据说话,为高密度算力提供经得起极限考验的散热方案。

FAQ

Q1:600W/cm²是在什么条件下测出来的?是否具有可重复性?

塔能在自建实验室中,使用高精度模拟热源(最大1500W),贴合冷板有效换热面,系统稳定运行至热平衡后测得。测试方法、设备、环境条件均已记录存档。

Q2:实际芯片的热流密度远低于600W/cm²,这么大的余量有必要吗?

有必要。原因有三:第一,芯片内部热点可达平均值的2-3倍,实际局部热流密度远高于平均值;第二,AI训练负载存在瞬时峰值,可能比标称TDP高出30%以上;第三,未来2-3年芯片功耗将继续快速增长,有余量意味着无需二次改造。塔能的余量设计正是基于对行业趋势的预判。

Q3:塔能600W/cm²的极限能力是否已经在真实项目中得到体现?

虽然真实芯片尚未达到600W/cm²,但塔能的余量已经在多个场景中体现价值:例如应对负载峰值时的温度稳定性、为下一代芯片预留升级空间、压制高热流密度的工程样片等。反馈显示,塔能的余量让他们对未来的散热需求更加从容。

#极限测试 #散热余量 #塔能两相液冷#未来芯片散热

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O06r1_ME8F9RyZrMIeYP6K7Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券