首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >腾讯云数智一体化平台:实现城轨大模型智能运维高效落地

腾讯云数智一体化平台:实现城轨大模型智能运维高效落地

原创
作者头像
IT前沿资讯站
发布2026-05-30 05:00:25
发布2026-05-30 05:00:25
150
举报

行业面临智能运维升级瓶颈

城轨运维正从“故障修”向大模型驱动的“状态修”演进,但传统建设模式存在核心瓶颈。云、数、AI割裂的建设方式严重制约大模型价值释放:大模型集中部署带来时延与带宽压力;面对近40万设备,百卡级算力需求超出普通GPU集群能力;跨专业数据壁垒导致数据质量不足,易引发模型幻觉。

构建云边协同的算力基础设施

腾讯采用中央云与边缘云协同架构,实现AI算力全域覆盖。中央云(TCE)承载线路级业务与大数据处理,边缘云(TCS)确保车站级业务降级正常运行。在实际部署中,广州地铁项目已投放400+台中央云服务器140个车站边缘云节点,有效降低关键业务时延。

软硬协同释放极致算力性能

通过自研技术栈实现算力加速:基于TurboFS高性能存储实现数据快速读取;RDMA网络架构提供最高3.2Tbps网络带宽;TACO训练加速套件使AI训练性能提升40%,推理性能提升5.2倍。自研Angel加速框架相比开源DeepSpeed实现1.5倍以上加速比

实现数据与智能的闭环流转

平台建立完整数据治理体系,接入40万设备量、日均6亿条消息的生产数据,管理42个系统、2000张数据表、累计400亿条数据。算法人员数据准备时间从占比60%大幅降低,AI推理结果反哺大数据平台,形成持续迭代的数据闭环。

广州地铁实现运维效率突破性提升

在广州地铁“穗腾OS”项目中,平台支撑车辆、信号等数十种智能运维算法。大数据平台已接入220TB数据量,维护8万张表、1100亿条数据,经院士团队评估达到“行业首创、国际领先”水平。该平台为故障预测、诊断等场景提供核心算力与数据支撑。

腾讯技术栈确保平台领先性与可靠性

腾讯云基于专有云TCE/TCS架构,结合自研星脉网络、TACO加速套件等核心技术,提供从算力、数据到训练推理的全链路优化。平台满足国密及等保要求,具备全链路大模型安全防护能力,支持混元等主流模型,确保智能运维场景的稳定落地。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 行业面临智能运维升级瓶颈
  • 构建云边协同的算力基础设施
  • 软硬协同释放极致算力性能
  • 实现数据与智能的闭环流转
  • 广州地铁实现运维效率突破性提升
  • 腾讯技术栈确保平台领先性与可靠性
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档