很多人以为,AI数据中心最烧钱的是GPU H100,一颗700瓦,几万颗一起跑,电费看起来确实夸张。但如果你看过真实的超大规模数据中心能耗结构,会发现一个更反常识的结果:
差不多30%的IT电力,并不是花在算力上,而是花在“算力之间的通信”上。你以为电费在“算模型”,其实有三分之一在“让模型互相说话”。
一、AI真正的瓶颈,已经不是算力了
过去大家比的是:GPU更快,算力更多,集群更大。但现在AI训练进入一个新阶段:万卡 十万卡级别集群,问题变了。不再是“能不能算”,而是:这些GPU之间,能不能及时把数据传过去。
在大模型训练里,通信量增长速度,甚至比算力还快。于是一个很现实的情况出现:GPU还在进化,网络和光互联,先顶不住。交换机、路由器、光模块,开始变成新的“电老虎”。
二、光模块快到极限了,于是CPO被推上台前
传统数据中心的结构是这样的:GPU PCIe 交换机 光模块 光纤。问题出在“光模块”这一层。
因为高速信号要在PCB上跑一段距离:
频率越高 损耗越大
功耗越高 发热越严重
速率越快 稳定性越差
结果就是:不是算力不够,是电信号跑不动,于是CPO被推出来。
它的思路很直接:把光模块“拆掉外壳”,直接放进芯片封装里。让电信号只跑几毫米,然后立刻变成光信号离开。
从工程角度看,CPO不是升级光模块,而是把“外接显卡”直接焊进主板芯片里。在理想状态下,单位带宽功耗可以下降30%~50%。对数据中心来说,这不是优化问题,是生存问题——因为电费已经开始成为扩张瓶颈。
三、但CPO真正难的,不是光,而是“热”和“时间”
很多人以为CPO难在光器件,其实不是。
真正的难点有两个:
1)热:以前光模块是“可插拔”的,坏了换一个就行。
但CPO是“焊死在封装里的”:光引擎 + ASIC + 封装基板,全部挤在一起发热。
结果就是:一个温度漂移,可能影响整个链路稳定性。
2)时间:这一步很多人忽略。
传统系统里:
光模块有自己的时钟
交换芯片有自己的时钟
各自“分开跑”
但CPO之后变成:同一个封装内,共用一个时间基准,问题瞬间升级。
因为任何微小的抖动(jitter)、相位噪声、时钟漂移,都会直接影响光信号输出。
以前是“不同步可以调整”,现在是“不同步直接出错”。
这也是为什么行业开始发现:传统单端晶振,在CPO架构里已经不够用。
四、时钟开始从“辅助器件”,变成系统底座
进入800G光模块之后,时钟要求已经明显变严:
必须差分输出(LVDS / HCSL / LVPECL)
抖动要压到皮秒级
温漂要控制在±10ppm甚至更严
全温区不能漂
而到了CPO阶段,问题进一步升级:光引擎数量增加,时钟节点翻倍,封装空间反而更小
于是现实:系统越先进,留给时钟的空间越少,但要求越高。
在这种结构下,像晶科鑫SJK这类晶振厂商的角色,变得很微妙:它不再只是“提供频率”,而是:决定系统能不能稳定跑在这个频率上。
五、一个容易被忽略的事实:AI系统其实是“时间系统”
回头看整个链路:
GPU负责算力
光互联负责传输
CPO负责压缩路径
而晶振/时钟负责一件更底层的事:让所有计算发生在同一个时间坐标系里。
很多AI系统问题,最后不是算力问题,也不是带宽问题,而是:同步漂移,时钟抖动
时间误差累积。
六、真正的瓶颈,不在“更快”,而在“是否同频”
AI算力还在增长,但增长方式已经变了。从“单点更强”,变成“系统更密”。
而系统一旦变密,有一个问题会被放大:所有东西必须在同一个时间上工作。
CPO解决的是“距离问题”,
光互联解决的是“带宽问题”,
而真正底层的问题是:时间是否一致。
所以回头看那句容易被忽略的数据:电费里30%不在算力,而在通信。
它背后真正的含义是:AI已经不只是算力竞争,而是一个“互联 + 时间系统”的竞争。