谷歌最新推出的Virgo数据中心网络架构,深刻反映了AI工作负载正在如何重塑超大规模数据中心的网络设计理念。
谷歌在官方博客中介绍,Virgo是专为大规模AI集群打造的网络架构,可覆盖数万个加速器,隶属于谷歌AI超级计算机(AI Hypercomputer)整体架构体系。该设计采用更扁平的两层拓扑结构,旨在降低延迟、提升整个网络的带宽能力。
这一转变折射出一个更深层的行业变化:AI训练与推理任务要求在大规模部署下保持稳定一致的性能表现,而不仅仅是追求峰值吞吐量。这类同步化工作负载需要在高流量的东西向数据通路上持续交换数据,每一个步骤都依赖紧密协调,一旦某个节点出现滞后,整个任务都可能被拖慢。
HyperFrame Research副总裁兼分析师Ron Westfall表示,谷歌将这种不稳定性视为系统级风险,而非单纯的网络问题。
"谷歌向Virgo架构的转型,是将数据中心重新定义为'园区即计算机',"他说道,并补充指出该设计"将尾部延迟视为关键的硬件可靠性问题",通过隔离AI训练流量来保持大型集群的同步运行。
谷歌表示,Virgo的设计目标是支持超过10万个加速器规模的集群,重点在于维持高平分带宽并将系统延迟降至最低。在可靠性方面,Virgo采用多个独立交换平面,并结合深度遥测技术,能够实时检测拥塞或故障,并在不中断工作负载的前提下重新路由流量。在如此大规模的系统中,局部故障在所难免,设计的核心目标正是防止这些故障在集群中扩散蔓延。
减少层级,降低波动
传统数据中心网络依赖多层Clos架构和超额订阅机制来平衡成本与利用率,但AI工作负载打破了这一模式。AI任务会持续产生东西向流量,使链路长期处于高负载状态,并暴露出潜在的竞争瓶颈。谷歌表示,Virgo以两层网络架构取代传统的三层设计,减少节点间的跳数,从而降低队列延迟产生的机会。
Westfall指出,该设计更注重消除波动,而非单纯解决拥塞问题。"扁平化架构降低了在中间跳点发生队列延迟的累计概率,"他说,这有助于防止同步化工作负载因单个数据包延迟而陷入停滞。不过,他也补充道,在更大规模的场景下,仅靠扁平化设计并不够,系统还需要依赖流量分发机制和光互连技术,以防止网络简化后拥塞集中出现。
分区化的数据中心网络
Virgo还运行在一个更宏观的分区化架构中,将数据中心内部的不同流量类型进行隔离。谷歌将紧耦合的加速器通信、跨集群的大规模东西向流量,以及连接存储与外部服务的南北向流量明确区分开来。
这种分区化设计标志着网络架构正从通用型向面向特定工作负载的专用型演进,也印证了一个更大的行业趋势:数据中心网络不再是单一统一的系统,而是由一组与AI工作负载执行方式深度适配的协调层次构成。
厂商纷纷布局AI专用网络
同样的压力也正推动各大厂商加速推出面向AI集群的专用网络解决方案。
英伟达正将其Spectrum-X平台定位为基于以太网的AI网络架构,结合交换机与DPU来管理拥塞,并在GPU集群中保持稳定性能。博通持续提供高基数交换芯片,包括Tomahawk和Jericho产品线,这些芯片是众多大规模以太网架构的基础支撑。Arista Networks则专注于AI后端网络建设,提供涵盖流量管理、遥测以及分布式集群负载均衡的软件能力。
Westfall表示,Virgo这样的设计正在提升业界对上述平台的性能期望。"这一转变强化了将尾部延迟一致性作为首要成功指标的必要性,"他说,并指出高基数交换和更紧密的硬件与软件集成是保持工作负载同步的关键所在。
他还补充道,超大规模云服务商通过在计算、网络与软件层面协同设计基础设施,保持着明显的竞争优势。
趋势走向
Virgo是谷歌的内部实践,但其背后的设计理念具有更广泛的行业意义。超大规模云服务商正普遍走向拓扑扁平化、提升路径多样性,并将网络行为与工作负载需求更紧密地绑定。谷歌的设计将数据中心视为一个统一的整体系统,让计算、存储与网络作为协调一致的整体运转,而非各自独立的组件。
Westfall认为,这种高度协同的整合能力,对于通用厂商而言仍难以复制。
"超大规模云服务商将网络与AI技术栈协同设计,把整个数据中心视为一台软件定义的计算机,"他说,"这种整合程度是通用厂商无法完全复现的。"
随着AI系统规模持续扩大,这些设计选择很可能将深刻影响未来数据中心网络的演进方向——率先在超大规模环境中落地,继而向企业级部署延伸。
Q&A
Q1:谷歌Virgo架构与传统数据中心网络有什么区别?
A:传统数据中心网络采用多层Clos架构和超额订阅机制来平衡成本与利用率,而Virgo采用两层扁平化拓扑结构,减少节点间跳数,降低队列延迟,同时支持超过10万个加速器的集群规模。此外,Virgo还通过多个独立交换平面和深度遥测技术提升系统可靠性,并将不同类型的流量进行分区隔离,专门针对AI工作负载的高频东西向数据交换进行优化。
Q2:Virgo架构如何解决AI训练中的尾部延迟问题?
A:Virgo通过多种机制应对尾部延迟:一是采用两层扁平化拓扑,减少中间跳点,降低队列延迟的累计概率;二是隔离AI训练流量,避免不同类型流量互相干扰;三是利用深度遥测技术实时监测拥塞和故障,并在不中断工作负载的情况下快速重新路由流量,防止单个节点滞后拖慢整体任务。
Q3:英伟达、博通等厂商在AI专用网络领域有哪些布局?
A:英伟达推出Spectrum-X平台,基于以太网架构结合交换机与DPU来管理拥塞,维持GPU集群稳定性能;博通提供Tomahawk和Jericho等高基数交换芯片,支撑大规模以太网架构;Arista Networks专注AI后端网络,提供覆盖流量管理、遥测和负载均衡的软件能力。分析师指出,谷歌Virgo的设计正在提升业界对这些平台在尾部延迟一致性方面的性能期望。