3D集成光学破局万亿参数MoE训练：Lightmatter Passage实现2.7倍加速与8倍集群扩展

光芯

发布于 2026-06-17 19:57:05

880

随着AI模型规模向万亿甚至十万亿参数级跃迁，传统半导体工艺的摩尔定律放缓已不再是制约性能的唯一瓶颈，高速互连技术正成为决定AI基础设施扩展能力的核心引擎。尤其是稀疏混合专家（MoE）架构的广泛应用，其特有的专家间全交换通信模式，将传统铜互连的传输距离限制、封装岸线瓶颈和能效短板暴露无遗。在2025年IEEE高性能互连研讨会（HotI）上，Lightmatter团队发布的Passage 3D集成光学平台，通过将光子与逻辑芯片垂直堆叠的创新设计，打破了现有scale-up集群的规模限制，为万亿参数MoE模型训练带来了2.7倍的训练速度提升和8倍的集群扩展能力。

一、万亿参数MoE的互连难题

Transformer模型自2017年诞生以来，参数规模从最初的65M增长至如今的万亿级，训练所需的GPU数量也从单节点8卡扩展到数据中心级的数万卡。MoE架构通过稀疏激活机制，在不显著增加计算量的前提下大幅提升模型容量，成为当前大模型演进的主流方向。但这一架构也带来了致命的通信开销：专家并行中的全交换（all-to-all）操作，在使用7200Gbps高速互连的系统中，仍可占据前向传播延迟的47%。

更大的scale-up域意味着可以部署更多专家，直接提升模型性能。然而，传统基于铜互连的scale-up网络面临着不可逾越的物理极限：224Gb/s速率下无源铜缆的最大传输距离仅约1米，448Gb/s速率下更是缩短至1m以下。这使得电互连的GPU集群被严格限制在单个机架内，目前主流的电互连scale-up pod最多只能支持72个GPU包，即使是规划中的2027年144 radix交换机，也已逼近铜互连的物理天花板。

除了传输距离限制，封装岸线资源的枯竭也成为GPU性能提升的重大障碍。现代高端GPU采用多芯片模块设计，南北两侧的岸线几乎全部被HBM内存堆栈占据，仅东西两侧可用于互连I/O。SerDes接口的带宽提升不仅面临信号完整性挑战，还会显著增加功耗，进一步挤压计算资源的功率预算。

二、传统光学方案的三重天花板

为了突破铜互连的距离限制，业界曾尝试将可插拔光模块、线性可插拔光学（LPO）和2.5D共封装光学（CPO）应用于scale-up网络，但这些方案均未能同时满足能效、密度和可扩展性的要求。

可插拔光模块虽然具备良好的可维护性和互操作性，但其集成的DSP和重定时器导致总能效高达21pJ/bit，且单模块面积超过2000平方毫米，带宽密度仅为1.3Gb/s/平方毫米。LPO通过移除模块内的DSP，将能效提升至13pJ/bit，但仍依赖host端的高性能SerDes，且大尺寸的OSFP-XD模块依然无法解决密度问题，在高带宽需求下甚至需要冷板冷却。

2.5D CPO将光引擎与主机芯片共封装在同一基板上，缩短了电信号传输距离，能效进一步提升至12pJ/bit。但2.5D集成方式下，光引擎与host芯片仍为并排布局，需要大量的岸线资源进行信号扇出，导致封装面积显著增加。同时，2.5D光引擎的带宽密度约为34Gb/s/平方毫米，仍无法满足下一代GPU的I/O需求。更关键的是，这些传统光学方案的功耗依然过高，若采用可插拔光模块构建NVLink spine网络，仅光模块部分就需要消耗20kW功率，远超单机架120kW的功率预算。

三、Passage 3D集成光学：重构GPU与交换机的I/O范式

Lightmatter Passage平台采用全3D堆叠架构，将电集成电路（EIC）直接堆叠在光子集成电路（PIC）之上，彻底颠覆了传统的I/O设计理念。这种垂直堆叠设计使得SerDes到光电转换单元的距离缩短至100um以内，从而可以使用无需DSP的低功耗短距SerDes，实现了前所未有的能效和带宽密度。

Passage的核心创新体现在四个方面：

1. 3D堆叠与TSV互连：PIC芯片集成了硅光子组件和硅通孔（TSV），可直接为上层EIC提供电源和信号传输。这使得I/O接口不再受限于芯片岸线，而是可以分布在整个芯片面积上，从根本上解决了岸线资源枯竭的问题。

2. 高密度波分复用（WDM）：采用微环调制器（MRM）阵列，支持单光纤16个波长的波分复用。在112Gb/s PAM-4调制下，单光纤带宽可达1.792Tb/s，是传统单波长CPO方案的8倍。同时支持双向传输，进一步提高光纤利用率。

3. 片上光交换（OCS）：集成马赫-曾德尔干涉仪（MZI）构成的2×2光开关单元，可实现可编程的片上光路重配置。这不仅为设备提供了组件级容错能力，还支持跨掩模版的波导拼接，为晶圆级计算架构奠定了基础。

4. 外部激光器设计：将激光器模块独立于GPU/交换机封装之外，通过专用光纤为系统提供光源。这一设计解决了激光器的散热和可靠性问题，激光器可单独更换，且其功耗不计入封装内功率预算，为计算资源释放了更多功率。

基于这些技术，Passage实现了4.3pJ/bit的总系统能效（包括PIC、激光器和SerDes），不仅远优于所有传统光学方案，甚至低于采用DSP的铜互连方案。其带宽密度达到160Gb/s/平方毫米，分别是LPO和2.5D CPO的123倍和6.6倍。

四、系统级设计优势：能效碾压与面积革命

为了验证Passage在实际系统中的优势，研究团队对比了三种构建512GPU包scale-up pod的技术路线：LPO、2.5D CPO和Passage光中介层，所有方案均采用448Gb/s的端口带宽和单层交换（SLS）拓扑。

在能效方面，对于32Tb/s单向带宽的GPU，Passage的总功耗仅为传统光学方案的1/2.8。LPO方案的总能效为13pJ/bit，2.5D CPO为12pJ/bit，而Passage仅为4.3pJ/bit。其中，Passage的片内功耗为3.2pJ/bit，片外激光器功耗仅为1.1pJ/bit，且激光器功耗在封装外，不占用GPU的功率预算。

在面积方面，差距更为显著。实现32Tb/s单向带宽，LPO方案需要10个OSFP-XD模块，占用超过20000平方毫米的板级面积；2.5D CPO方案需要3个12.8T光引擎，导致GPU封装面积增加23%；而Passage光中介层仅需额外增加200平方毫米的面积，GPU封装面积仅增加3.5%，几乎可以忽略不计。

对于交换机设计，Passage的优势同样明显。构建512端口、200Tb/s的单层交换机，LPO和2.5D CPO方案受限于岸线资源，需要4个全掩模版的设计；而Passage通过将SerDes分布在整个芯片面积上，可在更小的封装内实现相同的带宽，每台交换机可节省1.5kW的功耗。

五、万亿参数MoE训练实测：2.7倍加速的底层逻辑

研究团队开发了专门的LLM训练性能分析工具，对4.7T参数的MoE模型进行了建模验证。该模型为120层解码器-only架构，模型维度12288，128个注意力头，训练配置为32768个GPU，张量并行度16，数据并行度256，流水线并行度8，全局批量大小4096，序列长度8192，训练数据量13T tokens。

测试对比了两种典型的系统配置：传统电互连系统，scale-up pod大小为144个GPU包，单GPU单向带宽14.4Tb/s；Passage光学系统，scale-up pod大小为512个GPU包，单GPU单向带宽32Tb/s。同时测试了四种不同的专家配置，从1/32（激活1个/共32个专家）到8/256（激活8个/共256个专家），覆盖了当前主流MoE模型的架构特征。

测试结果显示，当两种系统均采用512 radix的相同拓扑时，Passage凭借更高的带宽优势，在所有专家配置下均实现了1.3-1.4倍的训练加速。而在实际系统配置下，随着专家粒度的细化和激活数量的增加，Passage的优势呈指数级扩大：在1/32专家配置下加速1.6倍，在最复杂的8/256专家配置下，加速比达到了惊人的2.7倍。

这一性能提升的核心原因在于，Passage将scale-up域的规模从144个GPU包扩展到了512个，使得原本需要通过低速scale-out网络传输的专家并行通信，得以在高速scale-up域内完成。传统系统中，专家并行通信受限于scale-up域的大小，大部分流量需要走1.6Tb/s的以太网链路，成为严重的性能瓶颈；而Passage系统可以容纳更多的专家并行组在高速域内，彻底消除了这一瓶颈。此外，Passage的高带宽特性使得即使在专家粒度更细、通信量更大的情况下，依然能保持接近线性的扩展效率。

更重要的是，Passage的架构优势还简化了MoE模型的训练流程。传统系统为了防止网络拥塞，需要采用复杂的负载均衡策略和设备限制路由，而Passage的高带宽和大scale-up域使得这些限制不再必要，专家可以更灵活地被调度和利用，进一步提升了系统的整体效率。

六、结论与未来

Lightmatter的这项研究首次系统性地证明了3D集成光学是突破AI训练集群scale-up瓶颈的终极解决方案。Passage平台通过革命性的3D堆叠设计，同时实现了能效、带宽密度和扩展能力的跨越式提升：将scale-up域的规模提升了8倍，万亿参数MoE模型的训练速度提升了2.7倍，且随着模型规模和专家复杂度的增加，这一优势将进一步扩大。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-04-17，如有侵权请联系 cloudcommunity@tencent.com 删除

集群