首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >INT流量路径预览:基于IPT的RoCE网络监控指南

INT流量路径预览:基于IPT的RoCE网络监控指南

原创
作者头像
星融元Asterfusion
修改2026-05-20 09:27:56
修改2026-05-20 09:27:56
750
举报
文章被收录于专栏:智算中心网络智算中心网络

传统监控为何难以应对RoCE网络?

在当前的智算中心场景中,网络已成为影响模型训练效率的关键制约因素。特别是在高性能的 RoCE (RDMA over Converged Ethernet) 网络中,哪怕是微小的丢包或拥塞都会导致系统整体通信性能的显著下降。传统的网络运维与监控方式无法感知微秒级的延迟变化,导致工程师在面对性能瓶颈时往往无从下手。

如何利用TPE(流量路径预览)应对RoCE网络监控挑战?

为了解决上述难题,基于带内网络遥测(INT)技术的运维与监控工具——TPE (Traffic Path Explorer,流量路径预览),通过部署TPE工具,运维团队可以决策优化以应对更多网络监控挑战。

IPT技术原理
IPT技术原理

技术基石:交换机所需的IPT带内网络遥测

TPE的实现基础是交换机需要具备 IPT(Inband Path Telemetry)带内监控技术。IPT技术通过复制特定业务流量的报文,并携带流量经过的每一跳交换机的相关信息,从而获取端到端转发的统计数据。

TPE的工作原理:从探测到解析

基于IPT技术的监控工具
基于IPT技术的监控工具

当交换机启用IPT功能后,入节点(Ingress Node)会为原始数据包生成一个截断payload并携带探针标记(Probe Marker)的探测包。该探测包随业务流在网络中传输,并在出节点(Egress Node)按照三层路由发送给TPE服务器进行解析呈现。

TPE工具的核心优势:无侵入、容器化与可视化

  • 无侵入部署:TPE独立部署于单独机器,不影响既有业务,也不会影响集群网络交换机。
  • 容器化管理:整个工具以容器方式部署,不影响监控服务器上的其他服务。
  • 直观可视化:用户通过图形化界面配置规则并查看拓扑,交换机状态信息一目了然。

如何部署与配置TPE实现深度网络监控?

基础设施蓝图规划(AID)

在部署前,需要在网络拓扑规划工具中按照真实拓扑规划添加交换机信息 。这包括设备名称(Hostname)、网络类型(计算/存储/管理)、设备角色(Spine/Leaf)以及管理地址。

网络拓扑规划工具
网络拓扑规划工具

在服务器上安装 TPE 工具

上传TPE的容器镜像到服务器中

代码语言:txt
复制
scp tpe-v1.0.1.tgz root@<TPE服务器IP>:/tmp/
docker run -d --name=tpe --network host --privileged -v /tmp/tpe/data:/app/data tpe:v1.0.1scp tpe-v1.0.1.tgz root@10.240.3.5:/tmp/

导入镜像

代码语言:txt
复制
docker load -i tpe-v1.0.1.tgz

运行容器

代码语言:txt
复制
docker run -d --name=tpe --network host --privileged -v /tmp/tpe/data:/app/data tpe:v1.0.1

现在可以通过 Grafana 面板 URL(例如:http://<TPE服务器IP>:3000/d/xxxxxx)来访问操作 TPE。

访问和操作 TPE 工具

监控工具可视界面
监控工具可视界面

以上是配置页所呈现的效果,便于演示,此处可以预先添加一些交换机的 IPT 规则,实际使用时用户可在配置界面自行添加所需规则。

手动配置IPT规则

手动添加IPT规则需要遵循如下要求:

  • 一条完整的业务路线需要按照实际拓扑添加入节点、传输节点以及出节点;
  • 入节点需要添加业务进入的设备端口,出节点需要添加业务进入的端口以及INT地址;
  • 所有设备的Switch ID唯一且同一链路的Probe Marker必须保持相同。

配置交换机角色:Ingress/Egress/Transit

【关键规则配置项说明】

手动配置规则时,需要确保以下核心要素:

  • Switch ID:纯数字且全局唯一,必须与AID一致。
  • Probe Marker:同一链路的Marker必须相同,最高2字节须为0。
  • 触发模式(Trigger Mode):可选择全量概率采样或按DSCP过滤采样。
  • 节点配置:一条完整的路径需包含入节点、传输节点和出节点,其中出节点需配置INT接口地址(Source IP)。

查看 TPE 可视化界面

完成配置后点击可视化按钮 Visual Interface 即可跳转报文解析页面。

监控工具可视界面演示
监控工具可视界面演示

此时可以看到根据之前配置的信息生成的一条IPT路径。

点击图上设备或者线路则能显示最新的IPT报文所展示的交换机的状态信息,下方则是 TPE 所解析的最新的 IPT 报文详情。

监控工具可视界面演示
监控工具可视界面演示

构建透明化的RoCE网络运维体系

通过这个基于INT技术的开源/示例工具,运维人员可以实时在可视化界面查看到最新的INT报文详情,包括每跳的延迟、队列占用等关键指标。这种基于TPE的流量路径预览技术,将原本“黑盒”的网络转发过程透明化,是构建高效率智算中心网络重要的一环。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 传统监控为何难以应对RoCE网络?
  • 如何利用TPE(流量路径预览)应对RoCE网络监控挑战?
    • 技术基石:交换机所需的IPT带内网络遥测
    • TPE的工作原理:从探测到解析
    • TPE工具的核心优势:无侵入、容器化与可视化
  • 如何部署与配置TPE实现深度网络监控?
    • 基础设施蓝图规划(AID)
  • 上传TPE的容器镜像到服务器中
  • 导入镜像
  • 运行容器
    • 访问和操作 TPE 工具
    • 手动配置IPT规则
    • 查看 TPE 可视化界面
  • 构建透明化的RoCE网络运维体系
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档