
一、万亿参数MoE的互连难题
Transformer模型自2017年诞生以来,参数规模从最初的65M增长至如今的万亿级,训练所需的GPU数量也从单节点8卡扩展到数据中心级的数万卡。MoE架构通过稀疏激活机制,在不显著增加计算量的前提下大幅提升模型容量,成为当前大模型演进的主流方向。但这一架构也带来了致命的通信开销:专家并行中的全交换(all-to-all)操作,在使用7200Gbps高速互连的系统中,仍可占据前向传播延迟的47%。

更大的scale-up域意味着可以部署更多专家,直接提升模型性能。然而,传统基于铜互连的scale-up网络面临着不可逾越的物理极限:224Gb/s速率下无源铜缆的最大传输距离仅约1米,448Gb/s速率下更是缩短至1m以下。这使得电互连的GPU集群被严格限制在单个机架内,目前主流的电互连scale-up pod最多只能支持72个GPU包,即使是规划中的2027年144 radix交换机,也已逼近铜互连的物理天花板。

除了传输距离限制,封装岸线资源的枯竭也成为GPU性能提升的重大障碍。现代高端GPU采用多芯片模块设计,南北两侧的岸线几乎全部被HBM内存堆栈占据,仅东西两侧可用于互连I/O。SerDes接口的带宽提升不仅面临信号完整性挑战,还会显著增加功耗,进一步挤压计算资源的功率预算。

二、传统光学方案的三重天花板
为了突破铜互连的距离限制,业界曾尝试将可插拔光模块、线性可插拔光学(LPO)和2.5D共封装光学(CPO)应用于scale-up网络,但这些方案均未能同时满足能效、密度和可扩展性的要求。

可插拔光模块虽然具备良好的可维护性和互操作性,但其集成的DSP和重定时器导致总能效高达21pJ/bit,且单模块面积超过2000平方毫米,带宽密度仅为1.3Gb/s/平方毫米。LPO通过移除模块内的DSP,将能效提升至13pJ/bit,但仍依赖host端的高性能SerDes,且大尺寸的OSFP-XD模块依然无法解决密度问题,在高带宽需求下甚至需要冷板冷却。
2.5D CPO将光引擎与主机芯片共封装在同一基板上,缩短了电信号传输距离,能效进一步提升至12pJ/bit。但2.5D集成方式下,光引擎与host芯片仍为并排布局,需要大量的岸线资源进行信号扇出,导致封装面积显著增加。同时,2.5D光引擎的带宽密度约为34Gb/s/平方毫米,仍无法满足下一代GPU的I/O需求。更关键的是,这些传统光学方案的功耗依然过高,若采用可插拔光模块构建NVLink spine网络,仅光模块部分就需要消耗20kW功率,远超单机架120kW的功率预算。

三、Passage 3D集成光学:重构GPU与交换机的I/O范式
Lightmatter Passage平台采用全3D堆叠架构,将电集成电路(EIC)直接堆叠在光子集成电路(PIC)之上,彻底颠覆了传统的I/O设计理念。这种垂直堆叠设计使得SerDes到光电转换单元的距离缩短至100um以内,从而可以使用无需DSP的低功耗短距SerDes,实现了前所未有的能效和带宽密度。
Passage的核心创新体现在四个方面:
1. 3D堆叠与TSV互连:PIC芯片集成了硅光子组件和硅通孔(TSV),可直接为上层EIC提供电源和信号传输。这使得I/O接口不再受限于芯片岸线,而是可以分布在整个芯片面积上,从根本上解决了岸线资源枯竭的问题。

2. 高密度波分复用(WDM):采用微环调制器(MRM)阵列,支持单光纤16个波长的波分复用。在112Gb/s PAM-4调制下,单光纤带宽可达1.792Tb/s,是传统单波长CPO方案的8倍。同时支持双向传输,进一步提高光纤利用率。
3. 片上光交换(OCS):集成马赫-曾德尔干涉仪(MZI)构成的2×2光开关单元,可实现可编程的片上光路重配置。这不仅为设备提供了组件级容错能力,还支持跨掩模版的波导拼接,为晶圆级计算架构奠定了基础。
4. 外部激光器设计:将激光器模块独立于GPU/交换机封装之外,通过专用光纤为系统提供光源。这一设计解决了激光器的散热和可靠性问题,激光器可单独更换,且其功耗不计入封装内功率预算,为计算资源释放了更多功率。

基于这些技术,Passage实现了4.3pJ/bit的总系统能效(包括PIC、激光器和SerDes),不仅远优于所有传统光学方案,甚至低于采用DSP的铜互连方案。其带宽密度达到160Gb/s/平方毫米,分别是LPO和2.5D CPO的123倍和6.6倍。
四、系统级设计优势:能效碾压与面积革命
为了验证Passage在实际系统中的优势,研究团队对比了三种构建512GPU包scale-up pod的技术路线:LPO、2.5D CPO和Passage光中介层,所有方案均采用448Gb/s的端口带宽和单层交换(SLS)拓扑。

在能效方面,对于32Tb/s单向带宽的GPU,Passage的总功耗仅为传统光学方案的1/2.8。LPO方案的总能效为13pJ/bit,2.5D CPO为12pJ/bit,而Passage仅为4.3pJ/bit。其中,Passage的片内功耗为3.2pJ/bit,片外激光器功耗仅为1.1pJ/bit,且激光器功耗在封装外,不占用GPU的功率预算。
在面积方面,差距更为显著。实现32Tb/s单向带宽,LPO方案需要10个OSFP-XD模块,占用超过20000平方毫米的板级面积;2.5D CPO方案需要3个12.8T光引擎,导致GPU封装面积增加23%;而Passage光中介层仅需额外增加200平方毫米的面积,GPU封装面积仅增加3.5%,几乎可以忽略不计。

对于交换机设计,Passage的优势同样明显。构建512端口、200Tb/s的单层交换机,LPO和2.5D CPO方案受限于岸线资源,需要4个全掩模版的设计;而Passage通过将SerDes分布在整个芯片面积上,可在更小的封装内实现相同的带宽,每台交换机可节省1.5kW的功耗。

五、万亿参数MoE训练实测:2.7倍加速的底层逻辑
研究团队开发了专门的LLM训练性能分析工具,对4.7T参数的MoE模型进行了建模验证。该模型为120层解码器-only架构,模型维度12288,128个注意力头,训练配置为32768个GPU,张量并行度16,数据并行度256,流水线并行度8,全局批量大小4096,序列长度8192,训练数据量13T tokens。

测试对比了两种典型的系统配置:传统电互连系统,scale-up pod大小为144个GPU包,单GPU单向带宽14.4Tb/s;Passage光学系统,scale-up pod大小为512个GPU包,单GPU单向带宽32Tb/s。同时测试了四种不同的专家配置,从1/32(激活1个/共32个专家)到8/256(激活8个/共256个专家),覆盖了当前主流MoE模型的架构特征。

测试结果显示,当两种系统均采用512 radix的相同拓扑时,Passage凭借更高的带宽优势,在所有专家配置下均实现了1.3-1.4倍的训练加速。而在实际系统配置下,随着专家粒度的细化和激活数量的增加,Passage的优势呈指数级扩大:在1/32专家配置下加速1.6倍,在最复杂的8/256专家配置下,加速比达到了惊人的2.7倍。

这一性能提升的核心原因在于,Passage将scale-up域的规模从144个GPU包扩展到了512个,使得原本需要通过低速scale-out网络传输的专家并行通信,得以在高速scale-up域内完成。传统系统中,专家并行通信受限于scale-up域的大小,大部分流量需要走1.6Tb/s的以太网链路,成为严重的性能瓶颈;而Passage系统可以容纳更多的专家并行组在高速域内,彻底消除了这一瓶颈。此外,Passage的高带宽特性使得即使在专家粒度更细、通信量更大的情况下,依然能保持接近线性的扩展效率。
更重要的是,Passage的架构优势还简化了MoE模型的训练流程。传统系统为了防止网络拥塞,需要采用复杂的负载均衡策略和设备限制路由,而Passage的高带宽和大scale-up域使得这些限制不再必要,专家可以更灵活地被调度和利用,进一步提升了系统的整体效率。
六、结论与未来
Lightmatter的这项研究首次系统性地证明了3D集成光学是突破AI训练集群scale-up瓶颈的终极解决方案。Passage平台通过革命性的3D堆叠设计,同时实现了能效、带宽密度和扩展能力的跨越式提升:将scale-up域的规模提升了8倍,万亿参数MoE模型的训练速度提升了2.7倍,且随着模型规模和专家复杂度的增加,这一优势将进一步扩大。