
在当前的智算中心场景中,网络已成为影响模型训练效率的关键制约因素。特别是在高性能的 RoCE (RDMA over Converged Ethernet) 网络中,哪怕是微小的丢包或拥塞都会导致系统整体通信性能的显著下降。传统的网络运维与监控方式无法感知微秒级的延迟变化,导致工程师在面对性能瓶颈时往往无从下手。
为了解决上述难题,基于带内网络遥测(INT)技术的运维与监控工具——TPE (Traffic Path Explorer,流量路径预览),通过部署TPE工具,运维团队可以决策优化以应对更多网络监控挑战。

TPE的实现基础是交换机需要具备 IPT(Inband Path Telemetry)带内监控技术。IPT技术通过复制特定业务流量的报文,并携带流量经过的每一跳交换机的相关信息,从而获取端到端转发的统计数据。

当交换机启用IPT功能后,入节点(Ingress Node)会为原始数据包生成一个截断payload并携带探针标记(Probe Marker)的探测包。该探测包随业务流在网络中传输,并在出节点(Egress Node)按照三层路由发送给TPE服务器进行解析呈现。
在部署前,需要在网络拓扑规划工具中按照真实拓扑规划添加交换机信息 。这包括设备名称(Hostname)、网络类型(计算/存储/管理)、设备角色(Spine/Leaf)以及管理地址。

在服务器上安装 TPE 工具
scp tpe-v1.0.1.tgz root@<TPE服务器IP>:/tmp/
docker run -d --name=tpe --network host --privileged -v /tmp/tpe/data:/app/data tpe:v1.0.1scp tpe-v1.0.1.tgz root@10.240.3.5:/tmp/docker load -i tpe-v1.0.1.tgzdocker run -d --name=tpe --network host --privileged -v /tmp/tpe/data:/app/data tpe:v1.0.1现在可以通过 Grafana 面板 URL(例如:http://<TPE服务器IP>:3000/d/xxxxxx)来访问操作 TPE。

以上是配置页所呈现的效果,便于演示,此处可以预先添加一些交换机的 IPT 规则,实际使用时用户可在配置界面自行添加所需规则。
手动添加IPT规则需要遵循如下要求:
配置交换机角色:Ingress/Egress/Transit
【关键规则配置项说明】
手动配置规则时,需要确保以下核心要素:
完成配置后点击可视化按钮 Visual Interface 即可跳转报文解析页面。

此时可以看到根据之前配置的信息生成的一条IPT路径。
点击图上设备或者线路则能显示最新的IPT报文所展示的交换机的状态信息,下方则是 TPE 所解析的最新的 IPT 报文详情。

通过这个基于INT技术的开源/示例工具,运维人员可以实时在可视化界面查看到最新的INT报文详情,包括每跳的延迟、队列占用等关键指标。这种基于TPE的流量路径预览技术,将原本“黑盒”的网络转发过程透明化,是构建高效率智算中心网络重要的一环。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。