WorkBuddy 不只写代码——让 AI 帮你做运维的五个场景

原创

用户12475538

发布于 2026-05-12 12:01:36

2150

文章被收录于专栏：与workbuddy合作与workbuddy合作

WorkBuddy 不只写代码——让 AI 帮你做运维的五个场景

大多数人只在"写代码"时想到 WorkBuddy。但代码写完了，线上跑起来了——这才是你需要帮助的时候。

运维是 AI 协作中最被低估的场景

刚开始用 WorkBuddy 时，我和大多数人一样：让它写代码，写完就完了。运维的事自己干——写定时任务、配监控、清日志、查磁盘。

后来发现不对：运维场景比写代码更适合 AI。 因为运维任务有标准模板、可重复、有明确的检查标准——这正是 AI 擅长的。

场景一：定时任务——不只是"帮我写个 Cron"

你真正的需求

"每天早上 3 点清理 7 天前的临时文件，把清理结果发到我的邮箱。"

怎么告诉 WorkBuddy

帮我创建一个定时清理任务：
1. 目标：清理 /tmp/cache/ 下修改时间超过 7 天的文件
2. 执行时间：每天凌晨 3:00
3. 通知：执行结果发邮件到 admin@example.com
4. 日志：每次执行记录到 /var/log/cleanup.log，
   格式：[时间] [状态] [清理文件数] [释放空间]
5. 异常：如果清理失败，记录错误详情并通知我
6. 安全：清理前先列出将要删除的文件清单，写进日志

你看，不是"帮我写个清理脚本"。是把时间、目标、通知、日志、异常处理、安全六个维度一次性描述清楚。

WorkBuddy 应该给你什么

# cleanup.py + Cron 配置 + 测试方式
# 不只是代码，是"部署这个任务需要的一切"

好的 AI 运维交付物：脚本 + 配置 + 部署指令 + 验证方式，四件套。

场景二：健康检查——不只是"服务是否在运行"

你真正的需求

"我想知道系统是否真的健康，不只是进程还在不在。"

怎么告诉 WorkBuddy

帮我设计一个健康检查脚本，不只是看进程是否存在：

检查项（每一项都要有独立的超时和状态）：
1. 主进程：ps aux | grep main.py 存在？
2. API 响应：curl http://localhost:8000/health 2秒内返回200？
3. 数据库连接：能否执行 SELECT 1？超时5秒？
4. 磁盘空间：/data 剩余是否 > 10%？
5. 内存使用：系统可用内存 > 500MB？
6. 最近错误率：过去5分钟错误日志 < 10条？

输出格式：
{
  "timestamp": "2026-05-12T03:00:00",
  "overall": "healthy|degraded|unhealthy",
  "checks": {
    "process": {"status": "ok", "detail": "PID 12345"},
    "api": {"status": "ok", "detail": "200 OK, 0.3s"},
    "db": {"status": "warning", "detail": "SELECT 1 耗时 4.2s，接近超时"},
    ...
  }
}

关键：告诉 WorkBuddy 不只是"检查什么"，还有"怎么算不正常"。 "数据库连接正常"太模糊。"SELECT 1 超时 5 秒算异常"——这才是可执行的检查标准。

场景三：日志管理——不只是"定期删除"

你真正的需求

"日志文件越来越大，但我偶尔需要查两周前的日志。不能全删，也不能全留。"

怎么告诉 WorkBuddy

帮我设计一个日志轮转策略：

规则：
1. 当前日志（今天）：保留，不截断
2. 最近 7 天日志：压缩成 .gz，保留
3. 7-30 天日志：只保留 WARNING 和 ERROR 级别的行，其余删除，再压缩
4. 超过 30 天：删除

实现方式：
- 脚本 + Cron 每天 2:00 执行
- 操作前记录当前日志文件大小（Total: X MB）
- 操作后记录释放空间（Freed: Y MB）
- 如果释放空间 > 1GB，发通知告知我

安全：
- 不要用 rm -rf
- 删除前先 mv 到 /tmp/log-trash/，保留 24 小时再真删

给了一个两阶段的删除策略：先移到缓冲区，24 小时后确认没副作用再真删。 这是运维思维——不是代码思维。

场景四：磁盘空间监控——不只是"快满了报警"

你真正的需求

"磁盘空间报警太烦了——它只在快满的时候叫，从来不告诉我为什么满的。"

怎么告诉 WorkBuddy

帮我做一个磁盘空间分析：
1. 每天 6:00 执行
2. 输出报告：哪个目录增长最快？
   格式：
   目录：/var/log/app/
   7天前：150MB → 今天：820MB（+670MB，+447%）
   最大文件：error.log (410MB)
   建议：检查 error.log 是否有重复错误导致日志爆炸

3. 预测：按当前增长速度，/data 将在 N 天后达到 90%
4. 如果预测在 7 天内触发 → 主动通知我
5. 历史趋势图？用 CSV 存数据，我自己画图

不只监控"现在多满"，还要回答"为什么变满"和"什么时候会满"。 这是运维的洞察层，不是监控层。

场景五：进程守护——不只是"挂了重启"

你真正的需求

"我的服务偶尔会假死——进程还在，但不响应了。自动重启不够，我需要知道它为什么假死。"

怎么告诉 WorkBuddy

帮我做一个进程守护脚本：

监控逻辑：
1. 每 30 秒检查一次
2. 检查方式：向服务发一个 /health 请求，2 秒超时
3. 如果连续 3 次检查失败 → 判断为假死

假死处理（按顺序）：
1. 记录当前状态快照（进程内存、CPU、打开文件数、最后 50 行日志）
2. 尝试优雅关闭（SIGTERM，等 10 秒）
3. 如果 SIGTERM 没反应 → SIGKILL
4. 重启服务
5. 等待 30 秒，验证 /health 恢复正常
6. 发通知：服务在 [时间] 假死，已自动恢复，假死前状态见附件

防震荡：
- 如果 5 分钟内重启超过 3 次 → 不再自动重启，发告警通知我人工介入
- 记录假死频率，方便排查根因

关键：假死处理不只是"重启"。是"先取证（快照+日志），再重启，再验证，再通知"。 否则服务重启了，你永远不知道为什么假死。

五个场景的核心模式

| 场景 | AI 应该做的不只是 | 还应该做 |
|------|------------------|---------|
| 定时任务 | 写脚本 | 时间+通知+日志+异常+安全 六维 |
| 健康检查 | 查进程 | 定义"什么算不健康"的具体阈值 |
| 日志管理 | 删文件 | 分级策略 + 安全网（缓冲区） |
| 磁盘监控 | 看剩余空间 | 趋势分析 + 根因预测 |
| 进程守护 | 挂了重启 | 取证 → 重启 → 验证 → 防震荡 |

让 WorkBuddy 做运维的正确姿势

三个要点：

# 1. 像给同事交代任务一样，不是像写代码需求
你："帮我写一个检查服务状态的函数"
# ↑ AI 会给你一个函数

你："每天早上 6 点帮我确认服务是否健康，
   不健康自动通知我，附带最近 5 分钟的错误日志"
# ↑ AI 会给你一个完整的运维方案

# 2. 说清楚"异常时怎么办"，不只是"正常时做什么"
# 好的运维方案 80% 的复杂度在异常处理上

# 3. 每次执行都要有记录
# 没有日志的运维操作 = 没有发生

本文基于与 WorkBuddy 的协作经验撰写。你用 AI 做过最满意的运维自动化是什么？评论区分享你的场景。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

WorkBuddy

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

WorkBuddy

登录后参与评论

0 条评论

热度

WorkBuddy 不只写代码——让 AI 帮你做运维的五个场景

WorkBuddy 不只写代码——让 AI 帮你做运维的五个场景

WorkBuddy 不只写代码——让 AI 帮你做运维的五个场景

运维是 AI 协作中最被低估的场景

场景一：定时任务——不只是"帮我写个 Cron"

你真正的需求

怎么告诉 WorkBuddy

WorkBuddy 应该给你什么

场景二：健康检查——不只是"服务是否在运行"

你真正的需求

怎么告诉 WorkBuddy

场景三：日志管理——不只是"定期删除"

你真正的需求

怎么告诉 WorkBuddy

场景四：磁盘空间监控——不只是"快满了报警"

你真正的需求

怎么告诉 WorkBuddy

场景五：进程守护——不只是"挂了重启"

你真正的需求

怎么告诉 WorkBuddy

五个场景的核心模式

让 WorkBuddy 做运维的正确姿势

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐