搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏AI+运维：智能化运维的未来
运维人最容易忽视的一件事：Runbook 不结构化，迟早会出事故
真正好用的Runbook，一定是结构化的。 ---#三、Runbook其实也应该版本化很多团队忽略一个事情：**Runbook也是代码。例如：service-repo/├─service├─deployment└─runbook展开代码语言：TXTAI代码解释部署脚本更新时，Runbook同步更新。 ---#四、Runbook最好的形态：可执行很多人写Runbook只是写文档。但更高级的方式是：**Runbook自动化。**举个例子。假设我们要检查KubernetesPodCrash。所以我一直强调：Runbook一定要统一入口。
14800编辑于 2026-03-10
来自专栏AI+运维：智能化运维的未来
别再半夜敲命令了：用 LLM + 自动化脚本，把 Runbook 变成“会思考的运维同事”
别再半夜敲命令了：用LLM+自动化脚本，把Runbook变成“会思考的运维同事”我先问你一个问题，你别急着回答，先在脑子里过一遍：你们团队的Runbook，是不是长这样？而LLM的出现，第一次让我觉得：Runbook，终于可以不只是文档了。一、Runbook的最大问题，从来不是“没写”很多管理者以为：“我们缺的是Runbook”但干过运维的人都知道，真正的问题是：故障发生时你来不及翻翻到了也不一定匹配每个环境都不一样每次事故都有“变种”所以现实是：Runbook≠执行Runbook≠决策Runbook≠修复它只是“参考资料”。 LLM能帮Runbook做什么？简单拆一下：读懂告警结合上下文判断场景选择对应的处理流程触发自动化脚本回收结果，再判断是否升级这一步一拆，你会发现：Runbook，开始“活”了。
43800编辑于 2025-12-13
来自专栏个人技术随笔
夜莺随笔:监控 Linux 主机
email", "dingtalk", "wecom" ], "notify_repeat_step": 60, "callbacks": [], "runbook_url email", "dingtalk", "wecom" ], "notify_repeat_step": 60, "callbacks": [], "runbook_url email", "dingtalk", "wecom" ], "notify_repeat_step": 60, "callbacks": [], "runbook_url email", "dingtalk", "wecom" ], "notify_repeat_step": 60, "callbacks": [], "runbook_url email", "dingtalk", "wecom" ], "notify_repeat_step": 60, "callbacks": [], "runbook_url
4K10编辑于 2022-02-16
来自专栏云原生应用工坊
从 SSH/SCP 到 AI 驱动的 OPS Agent：落地前的思考
；3) Runway（可控通路）：GitOps/CD/特性开关/流量管理，确保“可试、可退”； 4) Records（可审计记录）：变更、告警、审批、回滚全链路留痕； 5) Refine（知识精炼）：Runbook -- selected metrics --> PG[(PostgreSQL + TimescaleDB)] PG -- graph --> AGE[Apache AGE(Graph)] KB[Runbook SLO/验证☐ SLI 指标定义（可用性/延迟/错误率）☐ 验证门：变更前后 5–10 分钟对比与阈值☐ 回滚路径（rollout undo / revert PR / FF 关闭）· 知识/沉淀☐ Runbook verification_window_min: 10 rollback: methods: ["rollout-undo", "revert-pr", "feature-flag"]knowledge: etl_sources: ["runbook KEY, service TEXT, env TEXT, owner TEXT, ts TIMESTAMPTZ DEFAULT now(), object_type TEXT, -- runbook
47910编辑于 2025-08-23
来自专栏vscode从0到高手
VS Code 重大更新：Agent Skills完美支持！
进阶：让技能“有血有肉” 再丢一句 prompt 给 Copilot： Create me three things: - A One-page incident runbook based on the this skill 几分钟后，你的技能包膨胀为： .github/skills/istio-observability/ ├── SKILL.md # 技能说明书 ├── runbook.md VS Code Insiders + 启用 Agent Skills 承认世界在变 2️⃣ 创建 .github/skills/ + SKILL.md 给混沌赋予结构 3️⃣ 用 Copilot 填充 runbook
3.7K20编辑于 2026-02-27
来自专栏深度学习与python
撤出云平台六年后，我们做了一次“断网测试”
我们借用了 Maelstrom 中的 Runbook 概念。Runbook 中包含一个或多个任务，每个任务负责执行特定操作。与直接编辑 Go 二进制文件相比，新方法不仅更加轻巧、同时也提高了 Runbook 的重用能力，帮助灾难准备团队轻松完成一次又一次定期测试。下图所示，为 Runbook 流程和其中的任务。 Runbook 状态机。一个 Runbook 由多个任务组成。任务状态机。任务负责执行特定操作，例如对数据库集群执行故障转移、更改流量权重或者发送 Slack 消息。此外，运维人员的操作灵活性也有所提升，例如可以轻松重新运行 Runbook、跳过已完成或者无需执行的任务等。随着 Runbook 复杂度的不断提升，这种简单性与可靠性将帮助我们始终保持程序具有良好的可管理性。
67320编辑于 2022-06-11
来自专栏云原生应用工坊
如何设计 AI 驱动的 OPS Agent：技术架构探索
Planner（Plan）：Runbook/变更计划 DSL，风险评估、回滚与门控生成。 Plan/Runbook：计划/步骤/回滚/门控。 Observation：指标/日志/追踪/审计事件的统一抽象。 Incident：异常/告警归并体。 apiVersion: ops/v1 kind: Runbook metadata: name: rollback-payments-to-1.2.3 labels: case: C-202508 相似检索：pgvector 召回 Runbook/复盘；LLM 进行 RAG 总结并给出多候选方案。与替代方案对比单纯告警 + Runbook：缺少图谱/向量证据与门控自动化；靠人执行，回滚与审计弱。纯 GitOps：变更可控，但缺少“何时/为何/如何”的自治决策与 KPI 验证闭环。
63510编辑于 2025-08-27
来自专栏LEo的网络日志
01 Jul 2022 家庭运行手册
进入sre行业半年了，经常会需要处理一些警告事件，然后把经验记录下来形成runbook，翻译过来就是运行手册，最近发现如果我不在家，家里有些事情家人无法处理，所以想着写一个家庭版的runbook，供家人参考
43220编辑于 2023-10-17
来自专栏云计算D1net
启动云计算事件响应策略的5个步骤
Runbook是企业员工在生产环境中对可预测事件做出反应时可以执行的一系列常规操作和过程。 Runbook不仅限于安全事件，因为它们还可以引导员工完成诸如如何扩展数据库或重新启动卡住的进程等任务。在事件管理方面，对于不熟悉企业架构的员工来说，Runbook是第一道防线。 ·聚合当涉及到事件响应团队识别发生了什么、如何发生以及为什么发生的能力时，数据是关键。
1.1K30发布于 2020-01-15
来自专栏云原生应用工坊
从 SSH/SCP 到 AI 驱动的 OPS Agent：能力清单
增强｜pgvector 知识库：Runbook/Incident/PR/变更 → 切片+Embedding+标签。进阶｜一致性标记：拓扑节点标注“可信度/时效性”，过期自动衰减。 E. 必备｜演练脚本：故障演练/回滚演练；灾备切换的 Runbook。增强｜影子/回放流量：对关键路径支持影子压测、变更前基线对齐。进阶｜混沌工程：故障注入自动化与 SLO 验证联动。 H. 仓库按 apps/<svc>/charts|overlays 组织 CODEOWNERS & 保护分支启用 OPA/Conftest 最少一条策略（副本下限、资源上限、禁止latest）知识库 Runbook
44810编辑于 2025-08-23
AI写代码之后，运维的活反而更多了？从42%到242%，聊聊AI代码涌入生产环境后我们踩的坑
而这些新服务里面很多是"AI辅助快速搭建"的，文档不全、架构设计没经过充分讨论、Runbook不存在。出了问题你问开发："这个服务的降级策略是什么？"——"啊……我还没来得及加"。那怎么办？ circuit_breaker: true # 熔断器 - timeout_configured: true # 所有外部调用有超时 documentation: - runbook_exists 但几次因为没有runbook导致凌晨排障多花了一个小时之后，大家都认了。告警治理：从数量到质量 470万时间序列不能每个都告警。我们做了一轮告警治理： 1. 给每个告警加上关联的Runbook链接——收到告警就知道第一步该做什么 4.
900编辑于 2026-06-25
来自专栏IT运维技术圈
DevOps 走向 AIOps：一套能跑的“最小智能运维骨架”(比葡萄干还干的文档)
• 执行：Runbook 自动化（Kubernetes 回滚/扩容/限流），并输出结构化记录。演示环境用 Docker Compose 搭一套“小而全”的工具链。生产替换为你公司现有组件即可。 { severity: critical, sli: "http-5xx" } annotations: summary: "SLO 快速燃尽 (5m > 1%)" runbook { severity: warning, sli: "http-5xx" } annotations: summary: "SLO 缓慢燃尽 (4h > 0.1%)" runbook SLOErrorBudgetBurnFast","severity":"critical","sli":"http-5xx" }, "annotations": { "summary":"SLO 快速燃尽 (5m > 1%)","runbook • 第 4 周：把两三个Runbook 自动化起来（限流、回滚、重启、拉黑异常实例）。 • 后续：补齐 Trace、变更时间线、ClickHouse 明细分析，逐步把“经验”沉到系统里。
61110编辑于 2025-10-09
来自专栏CNCF
为人员服务发现注释Kubernetes服务
/repository Link to external VCS repository. a8r.io/support Link to external support center. a8r.io/runbook Link to external project runbook. a8r.io/incidents Link to external incident dashboard. a8r.io/uptime
54410发布于 2021-05-07
来自专栏HHFCodeRv
你适合做救火队长嘛？
感兴趣的可以去看看 3.服务 runbook 定期演练这一点我体会非常深，就像消防员定期检查装备，然后测试灭火一样。服务要针对特定的问题，定制好 runbook, 毕竟维护服务的工程师是流动的，今天是 owner, 明天就移交给 tom 了我们的服务依赖 etcd, 大家也知道机器挂掉概率虽然低，但是预期之中的。所以我们编写了 runbook, 滚动升级 etcd, 移除添加故障节点等等，非常好用，新手按照流程走就可以 4.人员素质长期建设里最重要的就是人员素质建设，有的人上线完成后，不看日志，不检查 grafana
63240发布于 2021-08-20
Google 开源 OKF，我更关心它背后的知识协作方式
不是模型不会推理，而是它不知道你们公司“周活用户”到底怎么算，不知道一张表和另一张表怎么 join，不知道某个 API 为什么被废弃，也不知道哪份 runbook 才是最新版本。你可以把一堆废话写进 Markdown，也可以把过期 runbook 写得很漂亮。OKF 解决的是格式交换，不会自动解决内容治理。第三，Agent 维护知识必须有人 review。
3000编辑于 2026-06-25
部署一个 24 小时在线的"监控 Agent"：让它帮你盯着生产环境的异常
第二阶段：引入低风险自主操作，建立 Runbook 自动化将现有的 Runbook（操作手册）结构化，让 Agent 能够在匹配到对应场景时自动执行预定义的处理步骤。给有意推进这件事的技术团队几个建议：从告警分析层入手，不改变现有流程，先让 Agent 证明它的分析价值建立误报率基线，在引入自主操作之前，把 Agent 的分析准确率量化，设定可接受阈值把 Runbook
32110编辑于 2026-03-31
来自专栏AI不是玄学
5/29/2026 AI速递 | LangSmith自托管检验Agent工程
典型场景包括：读取监控告警，查询CMDB或资产系统，调用Runbook，分析Prometheus、Grafana、ServiceNow、Jira、Kubernetes事件或Linux日志，再给出修复动作知识库可用RAG承载内部Runbook、故障手册、SLA规则和历史工单；工具层通过API、Webhook或MCPServer封装查询接口，例如KubernetesAPI、云厂商监控接口、ServiceNow 更完整的落地架构会多一层编排和观测：Agent接收告警事件后，先进入任务编排器，拆成“查上下文、查指标、查日志、匹配Runbook、生成处置建议、等待审批、执行动作、回写工单”几个步骤。整理对应Runbook，把权限、前置条件、回滚步骤写清楚。用离线历史工单和日志构建评测集，标注正确动作和禁止动作。接入只读工具，验证Agent是否能稳定查到证据。短期内，这类Agent更适合有成熟Runbook、监控体系和审批流程的IT平台团队，不适合缺少数据治理、还没有标准化运维流程的组织直接上自动执行。
23320编辑于 2026-05-29
来自专栏云原生技术社区
Lyft 宣布开源基础设施工具管理平台 Clutch！
当执行维护任务时，当用户在使用runbook时漏掉警告或者删除错误的资源（例如，他们认为没有使用，但占用了很大流量的资源），从而导致严重中断。通常记录在 Runbook 中的护栏和启发式方法可以以编程方式实现。例如，我们绝不允许用户一次将群集缩减 50% 以上，因为这种操作曾经导致过正常维护时的意外中断。 6 Clutch在Lyft公司在 Clutch 之前，Lyft 工程师依靠一系列大杂烩式命令行工具、Web 接口和 Runbook 来执行简单的任务。 Lyft 最常见的警报需要解决多达六个不同的信息源：警报、其他服务仪表板、Runbook、其他文档源、供应商控制台或脚本以及配置设置。
1.2K10发布于 2020-08-31
来自专栏开始入门
全栈监控与告警设计——从SLO到告警规则，避免告警雪崩的分级体系
最近部署：订单服务v1.2.3（2小时前部署）" ], "runbook": "https://runbook.company.com/order-service-high-error-rate", labels.service }} 错误率超过5%" description: "服务 {{ $labels.service }} 当前错误率为 {{ $value }}，已持续5分钟" runbook : "https://runbook.company.com/api-high-error-rate"Dashboard即代码（JSON配置）确保监控视图一致性：{ "dashboard": {
59110编辑于 2026-01-22
来自专栏DevOps
「转]SRE实战真经-SLOs Runbooks Postmortems
近期看到的最好的一篇 SRE 领域的文章，分享给大家，其中包含的 Runbook、Postmortem 模板都很有参考价值，对于稳定性和绩效的关联也做了建议。作者 Fatih K. critical team: payments annotations: summary: "结账服务错误预算消耗率达 14.4 倍" runbook_url : warning team: payments annotations: summary: "结账服务错误预算消耗率达 6 倍" runbook_url 运行手册与告警的关联还记得我们在 OpenTelemetry 流水线中添加的 runbook.url 注解吗？ runbook_url: '{{ $labels.runbook_url }}' dashboard: 'https://grafana.internal/d/service-overview?
40910编辑于 2025-11-16

第 2 页第 3 页第 4 页第 5 页第 6 页

点击加载更多

运维人最容易忽视的一件事：Runbook 不结构化，迟早会出事故

别再半夜敲命令了：用 LLM + 自动化脚本，把 Runbook 变成“会思考的运维同事”

夜莺随笔:监控 Linux 主机

从 SSH/SCP 到 AI 驱动的 OPS Agent：落地前的思考

VS Code 重大更新：Agent Skills完美支持！

撤出云平台六年后，我们做了一次“断网测试”

如何设计 AI 驱动的 OPS Agent：技术架构探索

01 Jul 2022 家庭运行手册

启动云计算事件响应策略的5个步骤

从 SSH/SCP 到 AI 驱动的 OPS Agent：能力清单

AI写代码之后，运维的活反而更多了？从42%到242%，聊聊AI代码涌入生产环境后我们踩的坑

DevOps 走向 AIOps：一套能跑的“最小智能运维骨架”(比葡萄干还干的文档)

为人员服务发现注释Kubernetes服务

你适合做救火队长嘛？

Google 开源 OKF，我更关心它背后的知识协作方式

部署一个 24 小时在线的"监控 Agent"：让它帮你盯着生产环境的异常

5/29/2026 AI速递 | LangSmith自托管检验Agent工程

Lyft 宣布开源基础设施工具管理平台 Clutch！

全栈监控与告警设计——从SLO到告警规则，避免告警雪崩的分级体系

「转]SRE实战真经-SLOs Runbooks Postmortems

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐