SRE AIOps浅谈

Wangzy

发布于 2026-06-22 18:51:46

1760

笔者在运维领域也从事了十年有余，从一线系统运维到一线应用运维，再到运维开发，对SRE、DevOps、AIOps都有些了解。

随着这几年人工智能及大语言模型的飞速发展，运维领域各个组织也都跃跃欲试AI能否给运维带来变革。

自从2016年Gartner提出AIOps的概念，AIOps的定义经历了从基于算法的IT运维（Algorithmic IT Operations）到基于人工智能的IT运维（Artificial Intelligence for IT Operations）的演变。

近期翻阅了国内外一些关于AIOps相关的资料，今天来简单做个总结。

—

Google Cloud 定义的 AIOps

本节内容参考Google Cloud 的 AIOps相关文章，链接如下：

https://cloud.google.com/discover/what-is-aiops?hl=zh_cn

1、AIOps和DevOps

AIOps 和 DevOps 的来源不同，但它们并不是相互竞争的概念，而是强大的合作伙伴。

DevOps 是一种文化和流程，旨在通过整合开发和运维来加快软件交付生命周期。它侧重于协作、自动化和 CI/CD 流水线。
AIOps 是为 DevOps 工具链提供强大支持的智能引擎。它提供管理现代 DevOps 实践带来的复杂性所需的高级分析和自动化功能。

简而言之，DevOps 构建快速变化的流水线，而 AIOps 通过自动检测、诊断和解决问题，确保流水线可靠高效地运行。

2、AIOps的工作原理

AIOps 平台通常通过分为三个部分的过程来运作：观测、互动和行动。

a、观察

AIOps 平台可从整个 IT 环境中注入并集中处理大量数据流，包括指标、日志、跟踪记录和事件，从而全面实时地了解系统健康状况。

b、互动

该平台使用机器学习技术来关联和分析这些数据，从而区分关键信号和噪声。它会自动检测异常情况、将相关提醒分组，并找出可能的原因，然后通过统一的信息中心和有针对性的提醒，向 IT 团队提供富有实用价值的分析洞见。

c、行动

根据分析结果，该平台会触发自动响应来解决问题。这可能包括通知正确的团队，也可能包括执行自动修复工作流（例如重启服务、扩缩资源或回滚变更），通常在人工操作员介入之前就能完成。

3、AIOps的应用场景

a、主动监控性能和可靠性

为确保服务保持快速可靠，AIOps 会主动监控 IT 基础设施及应用服务的性能。它会分析历史数据和实时数据，了解正常情况，从而检测到预示未来问题的细微偏差，例如内存泄漏或响应时间变长。这使团队能够在问题导致服务中断之前修复问题。

b、自动化突发事件补救工作流

AIOps 通过与 IT 自动化工具和编排平台集成，促进突发事件响应工作流的自动化。检测到突发事件后，AIOps 可以自动触发预定义的补救措施，例如重启服务、扩缩资源或运行诊断脚本，而无需人工干预。例如，如果 AIOps 检测到 Web 应用错误，它可以自动启动工作流来重启应用服务器，并回滚最近任何有问题的代码部署。

c、通过多维度数据关联进行智能根本原因分析

利用机器学习分析和关联来自各种 IT 来源的数据，包括日志、指标、网络流量和配置数据，帮助执行智能根本原因分析。此功能使 AIOps 能够通过识别人工分析可能遗漏的复杂关系和依赖关系，找出 IT 问题的根本原因。例如，如果检测到数据库性能问题，AIOps 可以将数据库日志与服务器指标和网络延迟数据相关联，以确定根本原因是查询速度慢、服务器资源争用还是网络瓶颈。

d、增强安全运维 (SecOps)

AIOps 采用相同的异常检测原理来防范威胁，从而增强安全性。它会分析网络流量、用户行为和系统日志，以建立正常活动的基准。然后，它会标记可疑偏差，这些偏差表明潜在的安全漏洞，例如异常的数据访问模式或来自意外位置的登录尝试，并触发安全团队的提醒。

e、情境感知和动态警报优先级排序

采用智能算法来分析警报并提供相关上下文信息，根据严重性、业务影响和依赖关系动态确定警报的优先级。此功能不仅能基于阈值发出简单提醒，还能减少提醒噪声，确保 IT 团队专注于最关键、最可行的通知。

f、通过趋势分析和资源推荐主动优化性能

执行趋势分析和容量规划算法，主动识别潜在的性能瓶颈并优化资源分配。通过分析历史性能数据并预测未来的资源需求，AIOps 可以提供资源调整建议，例如扩容计算资源或重新平衡工作负载，以保持最佳性能并防止服务降级。例如，AIOps 可以分析应用性能趋势，预测 Web 应用何时可能出现峰值负载，并建议主动扩缩 Web 服务器实例，以确保在高峰时段提供一致的用户体验。

—

AIOps 助力 SRE

本节内容参考：https://devops.com/aiops-for-sre-using-ai-to-reduce-on-call-fatigue-and-improve-reliability/

国外SRE专家 Ankur Mahida 表示，AIOps 引入了异常检测、事件关联、预测洞察和自动修复等高级功能，这并非取代人类专家，而是为 SRE 团队提供一项附加功能：减少干扰、提取可操作的指标，并将注意力重新集中到高价值的工程工作上。

1、SRE的轮值模式

SRE 的核心是轮值模式——一种轮班制，工程师必须 7x24 全天候响应任何事件。

Catchpoint 发布的一份 2025 年报告显示，近 70% 的 SRE（系统可靠性工程师）都面临着值班压力，这表明值班压力导致了职业倦怠和人员流失。长期睡眠障碍、频繁切换工作环境以及心理压力，不仅损害个人身心健康，还会从根本上影响团队工作和整体可靠性。

对于 SRE 而言，AIOps 包含一系列基于人工智能和机器学习的方法，这些方法能够实现阻抗匹配，识别出人眼无法察觉的模式，并支持主动运维而非被动运维。

2、AIOps 四大核心功能。

a、异常检测功能可检测日志、指标或跟踪异常，并将其用于指示事件。

b、事件关联功能将事件拆分为单个事件，从而减少页面数量，避免值班工程师不堪重负。

c、预测分析功能利用历史数据预测可能发生的故障或性能下降，并在影响客户之前发出警报。

d、自动修复功能无需人工干预即可执行可用的运行手册或协调纠正措施，从而在 SRE 专注于高级工程工作的同时，维持服务的稳定性。

3、SRE 的 AIOps 实践

AIOps 对 SRE 的巨大潜力不在于其抽象的定义，而在于它对日常运维实践的直接保障。

AIOps 通过解决以往导致繁琐工作（包括噪声、检测延迟、诊断缓慢和人工修复）的根源，彻底改变了事件生命周期。

以下列出了 AIOps 能够提供可量化价值的五个具体领域。

a. 告警降噪与事件相关性汇聚

SRE 最明显的烦恼就是监控系统发出的海量警报。一个微服务的 CPU 使用率飙升会引发下游延迟警告、数据库连接错误和终端用户超时等一系列连锁反应，生成数十甚至数百条不必要的警报。如果没有 AIOps，工程师必须耗费大量时间手动关联页面间的关系，梳理告警的源头。

AIOps平台采用聚类和去重技术，将多个事件简化为一个连贯的事件。AI能够通过分析包含时间、拓扑依赖关系和历史共现信息的元数据，自动检测相关事件之间的联系。因此，告警数量减少，且每个告警都包含更多上下文信息。具体来说，这意味着可以将1000个原始事件转化为一个带有因果链的可操作事件。对于值班工程师而言，这直接转化为更少的页面、更低的疲劳度和更短的响应时间。

b. 异常检测与预警

传统的监控方法使用硬编码阈值：CPU 使用率超过 80% 通知团队。然而，分布式系统的运行几乎不可能遵循线性、可预测的模式。技术上正确的故障警报可能出现在季节性流量高峰、短暂的负载测试或缓存预热期间。AIOps 提出使用基于统计和机器学习的异常检测，通过日志、指标和跟踪数据动态训练正常行为模型。与设定阈值不同，模型能够识别实际行为与预期行为之间的细微差异。这使得它能够发出早期警报（在服务级别目标 (SLO) 被违反之前）。

例如，第 99 百分位延迟的微小变化，传统系统可能无法检测到，直到用户体验下降才会显现。而趋势检测可以更早地被发现，异常检测可以及时提醒团队，使其能够主动采取行动。这种从被动应对到主动预防的转变意义重大。异常情况可以在工作时间内被发现，此时其干扰较小，避免工程师在凌晨 2 点因影响客户的事件而被迫起床。

c. 根本原因分析加速

故障发生后，找出真正的根本原因可能是最耗时的步骤。在微服务架构中，一个用户请求可能要经过数十个服务，因此通过手动方法进行依赖关系追踪是一项极其艰巨的任务。工程师常常会浪费数分钟甚至数小时的宝贵时间来浏览仪表盘、交叉检查日志并猜测各种可能的假设。

AIOps 系统能够利用基于图的算法和机器学习模型，加速服务关联的根本原因分析。通过分析历史事件数据和当前遥测数据，可以建议出具有置信度评分的根本原因。例如，如果多个服务的延迟警告与特定缓存集群的内存压力持续相关，AI 可以立即识别出该集群可能是问题所在。

这并非完全消除人工验证，而是缩短了获得洞察所需的时间。工程师无需从零开始，因为系统提供了一系列有证据支持的假设作为起点，从而显著缩短了平均故障修复时间（MTTR）。

d. 预测性事件管理

AIOps拥有最强大的预测能力，也是最具吸引力的。它可以通过利用历史性能、季节性使用情况和基础设施测量数据训练预测模型，从而在系统性能下降之前预测其发生。

比如以“618”或“双十一”促销时的电商平台为例。根据当前的流量模式和资源消耗模式，AIOps 可以预测数据库集群将在未来两小时内出现拥塞。系统可以主动采取其他扩展措施，或者通知 SRE 采取预防措施，而不是等到不可避免的宕机事件发生。这种前瞻性视角改变了以往被动应对故障、疲于奔命的运维模式，转而采用可靠性优先策略。它旨在最大限度地减少停机时间，并建立信任，确保系统即使遭遇罕见的流量高峰，也不会造成灾难性后果。

e. 告警自愈及故障自愈

自愈是AIOps的最终目标。

针对各种突发事件，有很多已知的解决方案：重启服务、清除缓存或更换证书。

事实上，这些方案都记录在运行手册中，由工程师手动执行。

AIOps 可以自动执行运行手册，使某些类型的事件触发预定义的流程或脚本。

例如，当发现某个服务存在内存泄漏并开始持续故障时，系统可以安全地重启该服务，而无需通知工程师。

更复杂的应用会发展到自愈系统，其中修复决策会根据事件上下文动态做出。

完全自动化可能存在风险，尤其是在新型或高风险事件中。大多数成熟的组织采用人机协同的方式，即在工程师的监督下，利用自动化来处理常规、复杂或不确定的情况。

—

信通院 AIOps 标准介绍

中国信息通信研究院（简称“信通院”）牵头构建了一套成体系的AIOps标准

已有标准：