文章/答案/技术大牛

发布

塔能两相液冷：不止应付当下，更为未来芯片做好准备

文章来源：企鹅号 - 塔能两相液冷

塔能两相液冷：不止应付当下，更为未来芯片做好准备

摘要：塔能在自建实验室中，参照在编国家标准《数据中心冷板式液冷系统技术规范》（计划号20242362-T-469）的测试框架，使用高精度模拟热源（最大功率1500W，控温精度±0.5℃），贴合塔能两相冷板有效换热面进行极限测试。等效热流密度达600W/cm²，系统稳定运行无过热。测试中冷板饱和温度稳定在目标值±0.2℃以内，热源温度≤85℃。这不是仿真推算，而是实测数据。塔能不仅为当前700W芯片提供充足余量，更为未来1000W+芯片预留了散热空间。

一、为什么需要极限测试

1. 芯片功耗没有天花板

从NVIDIA A100（TDP 400W）到H100（TDP 700W），再到B200（TDP 1000W）——B200的1000W TDP几乎普遍要求直接液冷（NVIDIA官方产品规格书数据）。与此同时，芯片面积并未同比例增加，导致热流密度急剧攀升。行业数据显示，当前主流AI芯片平均热流密度已超100W/cm²，新一代产品达150-200W/cm²，内部热点区域更高（参考多家芯片厂商产品规格书及行业分析报告）。在这种趋势下，散热方案必须具备“超前部署”能力。今天购买的散热系统，如果只能勉强对付当前芯片，明年芯片升级时又要二次改造，造成重复投资。

2. 实验室极限测试的意义

真实服务器环境受限于芯片功耗、散热条件、安全边界，很难达到理论极限。因此，必须通过高精度模拟热源进行极限测试，验证散热系统的天花板在哪里。塔能采用最大1500W的模拟热源，贴合冷板有效换热面，系统稳定运行至热平衡，记录热源温度、冷板温度、功率、流量、压力等关键参数，并按有效换热面积等效换算热流密度。这种方法排除了服务器其他组件的干扰，直接验证冷板本身的极限能力。

3. 余量即投资保护

塔能600W/cm²的实测能力，意味着即使未来芯片功耗翻倍、面积缩小、热点集中，冷板仍然能够稳定压制。算力中心无需担心“今天买的散热，明天芯片升级就要换”。这种余量不仅节省了二次改造费用，还避免了改造期间的业务中断风险。从投资保护角度看，选择有余量的方案本身就是一种成本优化。

二、塔能极限测试方法与结果

1. 测试配置

塔能在自建实验室中进行测试，测试设备包括：高精度模拟热源（最大功率1500W，控温精度±0.5℃），贴合塔能两相冷板有效换热面；泵驱两相CDU提供循环动力，工质为环保氟化液；数据采集系统实时记录功率、温度、流量、压力。测试步骤为：系统稳定在预设饱和温度附近，启动热源并逐步增加功率至1500W，持续满载运行至热平衡，记录所有参数。

2. 测试结果

施加热源功率达到1500W，冷板饱和温度稳定控制在目标值±0.2℃以内。热源稳定温度≤85℃，远低于芯片安全工作上限。系统状态显示稳定运行，无过热、无沸腾异常、无压力波动。按冷板有效换热面积折算，等效热流密度达到600W/cm²。

3. 数据解读

600W/cm²意味着什么？以当前H100平均热流密度86W/cm²计算，塔能冷板的承受能力是其近7倍。即使考虑芯片内部热点（通常为平均值的2-3倍），塔能600W/cm²仍能覆盖300W/cm²以上的极端热点。按照AI芯片功耗每年增长约40-50%的速度，塔能方案可为未来3-5年的芯片升级提供散热余量。

三、真实GPU验证：从极限测试到实际应用

1. 三卡满载1小时测试

塔能在真实服务器上进行了GPU散热性能测试。测试平台为三卡并行服务器，搭载某旗舰级GPU（单卡TDP约575W）。测试工况为100%满载，连续运行1小时，冷板饱和温度设定为37℃。测试结果显示：三卡在持续满载运行中的核心温度稳定在74-77℃区间，冷板温度波动控制在≤0.01℃范围内。系统连续运行期间温度无明显上升趋势，热管理稳定性良好。

2. 对比分析

该GPU的TDP为575W，按芯片面积折算平均热流密度约100W/cm²。塔能冷板在实际运行中将核心温度稳定在74-77℃，波动极小，且距离芯片降频阈值（通常85-90℃）有10℃以上的安全余量。相比之下，常规单相水冷板在同一GPU上实测温度波动±5-8℃，峰值温度可达85℃以上，触发降频。

3. 测试结论

真实GPU测试进一步验证了实验室极限数据的可信度。三卡满载1小时核心温度稳定74-77℃，冷板波动≤0.01℃，降频事件归零。连续满载无温升趋势，热管理系统稳定可靠。芯片表面温度分布均匀，热应力显著降低，有助于延长GPU寿命。

四、行业对比：塔能600W/cm²处于什么水平

1. 与单相水冷对比

常规单相水冷板在热流密度超过150W/cm²时开始接近能力边界，需要极高流速和泵耗，且控温精度大幅下降。塔能两相冷板在600W/cm²下仍能稳定运行，换热系数是单相水冷的20倍以上，泵耗仅为1/5-1/10。

2. 与同类两相产品对比

市场上其他两相液冷产品（如热管型、被动式）通常没有公开的极限热流密度数据。据塔能市场调研及行业交流信息，同类产品多数实际承受能力有限。塔能600W/cm²加上泵驱主动控温，在业内处于领先水平。

五、实战案例：极限能力在真实场景中的价值

1. 某头部AI公司：为下一代芯片预留空间

该公司计划在2026年升级到下一代GPU（TDP预计1000W+）。他们评估了多家液冷方案，发现大部分产品只能勉强应对当前700W芯片，对1000W+没有把握。塔能提供了600W/cm²的测试报告，该公司最终选择了塔能。技术负责人表示：“我们不想每换一代芯片就折腾一次散热。塔能给了我们3-5年的安心。”

2. 某智算中心：应对负载峰值

该中心在实际运行中发现，某些AI训练任务的瞬时功耗峰值比标称TDP高出30%。单相水冷板在峰值时温度飙升，触发降频。塔能冷板在同样峰值下温度波动仅1.2℃，无降频。运维数据显示，改造后训练任务完成时间缩短了12%。该中心负责人说：“标称参数只能参考，实际负载往往更苛刻。塔能的余量让我们放心。”

3. 某芯片设计公司：验证工程样片

该公司在测试工程样片时，功耗和热流密度都超出预期，现有散热方案无法稳定运行。塔能提供了定制冷板，成功压制了样片的热量，使测试得以继续进行。该公司的热设计工程师评价：“我们自己的散热方案在200W/cm²就崩了，塔能居然能跑到600W/cm²。这给了我们修改芯片设计的信心。”

六、极限测试的启示：选散热要看余量

很多算力中心在选型时只看当前芯片功耗，认为“够用就行”。但AI芯片功耗的增长速度远超预期，且实际运行中负载峰值往往高于标称TDP。如果散热方案没有足够余量，可能面临两种情况：一是芯片升级时需要二次改造，增加投资和停机风险；二是日常运行中遇到负载峰值就降频，算力损失持续发生。

塔能600W/cm²的极限能力，为算力中心提供了充足的安全边界。这不仅是技术实力的体现，更是投资保护的承诺。塔能两相液冷，不止降温，更能精准控温——±1.5℃，让算力始终在线。塔能（江苏）科技有限公司，用实测数据说话，为高密度算力提供经得起极限考验的散热方案。

FAQ

Q1：600W/cm²是在什么条件下测出来的？是否具有可重复性？

塔能在自建实验室中，使用高精度模拟热源（最大1500W），贴合冷板有效换热面，系统稳定运行至热平衡后测得。测试方法、设备、环境条件均已记录存档。

Q2：实际芯片的热流密度远低于600W/cm²，这么大的余量有必要吗？

有必要。原因有三：第一，芯片内部热点可达平均值的2-3倍，实际局部热流密度远高于平均值；第二，AI训练负载存在瞬时峰值，可能比标称TDP高出30%以上；第三，未来2-3年芯片功耗将继续快速增长，有余量意味着无需二次改造。塔能的余量设计正是基于对行业趋势的预判。

Q3：塔能600W/cm²的极限能力是否已经在真实项目中得到体现？

虽然真实芯片尚未达到600W/cm²，但塔能的余量已经在多个场景中体现价值：例如应对负载峰值时的温度稳定性、为下一代芯片预留升级空间、压制高热流密度的工程样片等。反馈显示，塔能的余量让他们对未来的散热需求更加从容。

#极限测试 #散热余量 #塔能两相液冷#未来芯片散热

发表于: 15小时前2026-06-23 20:58:39
原文链接：https://page.om.qq.com/page/O06r1_ME8F9RyZrMIeYP6K7Q0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

塔能两相液冷：不止应付当下，更为未来芯片做好准备

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐