文章/答案/技术大牛

发布

训练一个大模型，30%的电费其实没花在算力上

文章来源：企鹅号 - SJK晶科鑫

很多人以为，AI数据中心最烧钱的是GPU H100，一颗700瓦，几万颗一起跑，电费看起来确实夸张。但如果你看过真实的超大规模数据中心能耗结构，会发现一个更反常识的结果：

差不多30%的IT电力，并不是花在算力上，而是花在“算力之间的通信”上。你以为电费在“算模型”，其实有三分之一在“让模型互相说话”。

一、AI真正的瓶颈，已经不是算力了

过去大家比的是：GPU更快，算力更多，集群更大。但现在AI训练进入一个新阶段：万卡十万卡级别集群，问题变了。不再是“能不能算”，而是：这些GPU之间，能不能及时把数据传过去。

在大模型训练里，通信量增长速度，甚至比算力还快。于是一个很现实的情况出现：GPU还在进化，网络和光互联，先顶不住。交换机、路由器、光模块，开始变成新的“电老虎”。

二、光模块快到极限了，于是CPO被推上台前

传统数据中心的结构是这样的：GPU PCIe 交换机光模块光纤。问题出在“光模块”这一层。

因为高速信号要在PCB上跑一段距离：

频率越高损耗越大

功耗越高发热越严重

速率越快稳定性越差

结果就是：不是算力不够，是电信号跑不动，于是CPO被推出来。

它的思路很直接：把光模块“拆掉外壳”，直接放进芯片封装里。让电信号只跑几毫米，然后立刻变成光信号离开。

从工程角度看，CPO不是升级光模块，而是把“外接显卡”直接焊进主板芯片里。在理想状态下，单位带宽功耗可以下降30%～50%。对数据中心来说，这不是优化问题，是生存问题——因为电费已经开始成为扩张瓶颈。

三、但CPO真正难的，不是光，而是“热”和“时间”

很多人以为CPO难在光器件，其实不是。

真正的难点有两个：

1）热：以前光模块是“可插拔”的，坏了换一个就行。

但CPO是“焊死在封装里的”：光引擎 + ASIC + 封装基板，全部挤在一起发热。

结果就是：一个温度漂移，可能影响整个链路稳定性。

2）时间：这一步很多人忽略。

传统系统里：

光模块有自己的时钟

交换芯片有自己的时钟

各自“分开跑”

但CPO之后变成：同一个封装内，共用一个时间基准，问题瞬间升级。

因为任何微小的抖动（jitter）、相位噪声、时钟漂移，都会直接影响光信号输出。

以前是“不同步可以调整”，现在是“不同步直接出错”。

这也是为什么行业开始发现：传统单端晶振，在CPO架构里已经不够用。

四、时钟开始从“辅助器件”，变成系统底座

进入800G光模块之后，时钟要求已经明显变严：

必须差分输出（LVDS / HCSL / LVPECL）

抖动要压到皮秒级

温漂要控制在±10ppm甚至更严

全温区不能漂

而到了CPO阶段，问题进一步升级：光引擎数量增加，时钟节点翻倍，封装空间反而更小

于是现实：系统越先进，留给时钟的空间越少，但要求越高。

在这种结构下，像晶科鑫SJK这类晶振厂商的角色，变得很微妙：它不再只是“提供频率”，而是：决定系统能不能稳定跑在这个频率上。

五、一个容易被忽略的事实：AI系统其实是“时间系统”

回头看整个链路：

GPU负责算力

光互联负责传输

CPO负责压缩路径

而晶振/时钟负责一件更底层的事：让所有计算发生在同一个时间坐标系里。

很多AI系统问题，最后不是算力问题，也不是带宽问题，而是：同步漂移，时钟抖动

时间误差累积。

六、真正的瓶颈，不在“更快”，而在“是否同频”

AI算力还在增长，但增长方式已经变了。从“单点更强”，变成“系统更密”。

而系统一旦变密，有一个问题会被放大：所有东西必须在同一个时间上工作。

CPO解决的是“距离问题”，

光互联解决的是“带宽问题”，

而真正底层的问题是：时间是否一致。

所以回头看那句容易被忽略的数据：电费里30%不在算力，而在通信。

它背后真正的含义是：AI已经不只是算力竞争，而是一个“互联 + 时间系统”的竞争。

发表于: 2026-06-162026-06-16 16:51:40
原文链接：https://page.om.qq.com/page/Oz5YJKto5UPtEAbKbFrzP0Xw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

训练一个大模型，30%的电费其实没花在算力上

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐