突破传统运维瓶颈,消解大模型落地系统性阻碍
城市轨道交通设备运维正经历从“故障修”、“均衡修”向“状态修”演进。传统模式人力资源消耗巨大且故障易影响行车;而理想的“状态修”需依托PHM(故障预测与健康管理)+AI手段实现按需维修与低成本运转。2025年3月,中国城市轨道交通协会信息化专业委员会(信专委)发布了垂域大模型应用指南,大模型向复场景决策演进成为必然趋势。
然而,当前行业在落地大模型时面临“云、数、AI割裂”的系统性痛点,严重制约价值释放:
- 时延及带宽压力: 大模型集中部署于OCC中央侧,高清摄像头普及导致带宽压力剧增。
- 算力需求膨胀: 面对近百万终端设备,百卡并发作业的迭代训练与推理面临算力瓶颈。
- 数据质量壁垒: 跨专业数据壁垒导致数据质量低下,极易引发AI“幻觉”,影响算法精度。
- 生态碎片化与安全威胁: 框架迁移成本高;同时面临越狱攻击、数据泄露、对抗样本攻击(毒性生成、幻觉)等新型安全挑战。
部署云边协同架构,实现算力、算法与数据闭环协同
针对业务痛点,依托专有云平台构建“云数智一体化”架构,实现算力、数据、模型等AI核心资产的全生命周期管理。
- 推行云边协同算力网络:
- 中央云(TCE): 承载线路级/中央级业务,统管大数据价值挖掘及算法训练迭代。
- 边缘云(TCS): 算力下沉至车站,承载对时延要求高的业务(如就近计算),并确保降级模式下车站正常运行。
- 构建智算一体化硬件底座:
- 基于自研TurboFS提供高性能存储;采用最高 3.2Tbps RDMA 自研网络架构结合 TCCL 集合通信库,加速分布式训练通信效率。
- 装配多模态大模型知识引擎:
- 支持混元、Deepseek及第三方模型,内置标准RAG(检索增强生成)流程,支持图文表混合内容的多模态结构化解析,并通过Agent模式调用插件响应复杂工作流。
- 建立LLM-WAF大模型安全防护线:
- 实时检测拦截算力滥用、提示词攻击及数据泄露;通过数据分级分类引擎和内容安全大模型实施生成内容过滤。
释放数据驱动潜能,量化提升模型训练与运维指标
通过全链路AI应用加速,有效解决了资源调度与开发效率问题。系统在实际应用中呈现出显著的投资回报率(ROI)与业务优化指标:
- 核心业务指标一:设备运维精准度与响应速度
严格遵循信专委对5类场景的要求,系统实现了故障预测准确率 ≥95%;故障诊断响应时间 ≤5分钟;通过合理配置人员与备件,维护资源优化效率提升 20%;智能问答与技能评估准确率均 ≥90%。
- 核心业务指标二:底层算力与推理性能
借助自研TACO训练加速套件优化深度学习算子库,实现了AI训练性能提升 40%,推理性能大幅提升 5.2倍。
- 核心业务指标三:数据准备与开发加速比
大数据平台提供标准化数据,直接替代了以往算法人员需耗费 60% 精力的高质量数据准备工作;一站式大模型精调内置自研Angel加速框架,相比开源deepspeed可实现 1.5+倍 加速比。
建设广州地铁“穗腾OS”,构建泛在操作系统业务闭环
广州地铁联合应用TCE全栈云原生技术构建分布式城轨云,打造了泛在操作系统“穗腾OS”,实现资源统一管理与高效复用。
- 云架构规模: 采用TCE同城双活架构,中央云已投放 400+ 服务器,边缘云已覆盖投放 140个 车站。
- 数据资产沉淀: 大数据平台目前已接入 220T 数据量,共计维护 8万 张表,沉淀 1100亿 条数据。
- 业务支撑深度: 算法平台已支撑地保特征设备识别、车辆运维(牵引辅助PHM组件、轮对踏面缺陷检测)、信号运维等数十种地铁中长尾算法。
依托全栈自研技术底座,确立行业垂类应用技术壁垒
系统通过底层芯片兼容(一云多芯覆盖主流信创芯片结合TencentOS)、算力网络加速(RDMA+TurboFS)、开发框架优化(Angel)到顶层安全防护(LLM-WAF)的全面自研,构建了高确定性的技术基座。基于该数智底座打造的“穗腾OS”,经院士及专家评估,已达到“行业首创、国际领先”水平,为城市轨道运维的高质量发展提供了可复制的标准化演进路径。
(数据来源:腾讯云交通《打造城轨云数智一体化平台,助力城轨运维高质量发展》报告)