

写在文章开始前。
突然觉得,上周末的快乐是极度单纯且强烈的,好久没有这样过了:
抒情结束!正文开始!
其实,就像我上周六演讲中提到的那样,我希望OpenClaw——后续我会统一用这个名称来指代智能体/多智能体协作相关能力——能够在数据库运维工作中,帮我解决一系列实际痛点,具体来说主要有这几方面:
不过,要让OpenClaw真正实现上述目标,在投入实际运维应用之前,我认为还需要对它进行更充分、更系统的训练,这也是我当前重点推进的工作之一。
除此之外,还有一件事想和大家同步一下:在模型选择上,我没有使用公网大模型,而是采用了本地部署运行的qwen3.5:35b模型。选择本地部署,一方面是因为它的运行速度(约50 Tokens/s)虽然比不上公网大模型,但更重要的是,我希望通过这种方式模拟企业级实际应用场景——在绝大多数企业中,大模型都会采用私有化部署模式,而这一切的核心诉求,就是安全。企业数据库中存储着大量核心业务数据,私有化部署能最大程度保障数据不泄露、不被外部访问,这也是企业级场景下的核心需求。
从实际使用体验来看,这个本地部署的qwen3.5:35b模型,整体能力还是比较不错的,能够应对大部分基础的运维相关需求。但我也发现了一个比较突出的问题:它对任务复杂度的判断能力不足。这直接导致了一个现象:当遇到步骤较多、耗时较长的复杂任务时,它往往只完成其中一个步骤,或者在某个步骤超时后,就停止输出回复,无法自主推进后续流程,必须需要人工提醒“进入下一步”,才能继续执行并给出最终结果。结合我的使用经验来看,我判断这个问题的背后,还隐藏着任务切片不合理的问题——也就是无法将复杂任务科学拆解为多个可有序推进的子任务,进而导致执行中断。
为了验证这个问题是否是个例,我对多个本地部署的30b级别模型进行了实测,结果发现这个问题是普遍存在的,并非qwen3.5:35b独有的问题。值得一提的是,由于我当前环境中128GB统一内存分配96GB显存后,无法正常运行大语言模型(LLM)的问题尚未解决,所以暂时还无法对120b级别模型进行测试,也就无法判断更高参数的本地模型是否能规避这个问题。不过,我也对照公网大模型进行了实测,发现公网大模型在处理复杂任务、判断任务复杂度方面,表现要出色得多。以我目前的粗浅认知来看,我姑且将这种复杂任务执行中断的问题,视为本地部署模型可能存在的一个通病,而这个问题,也将是未来智能体在企业级场景落地过程中,必须重点解决的核心难点之一。
其实,关于这个问题的解决,我在之前的文章中也提到过:我尝试使用planning-with-files技能来优化这个问题,目前已经取得了一定的成效。在我持续的训练和调试下,当模型能够准确判断任务复杂度时,已经可以无需人工提醒,自主完成整个复杂任务的全流程执行。但遗憾的是,它目前还无法100%准确判断所有任务的复杂度,偶尔还是会出现执行中断的情况。所以,后续我还需要继续对模型进行训练,不断优化它的任务复杂度判断能力,同时添加、整合更多实用的Skill,甚至根据实际运维需求,自己开发定制化的Skill,进一步完善智能体的能力。
这也正好呼应了我前面提到的——需要给OpenClaw进行更多训练。在我看来,要让OpenClaw能够在类似企业级的复杂运维场景中独立“干活”,首先要解决的就是它的“通识教育”问题:先搭建好完整的工作流程框架,明确各项运维任务的执行逻辑和先后顺序,再逐步填充具体的任务执行方法和专业知识,就像给骨架添上血肉一样,这样才能让它真正发挥出应有的作用,具备独立处理运维工作的能力。
除此之外,还有一个核心问题必须解决——就是我之前文章中提到的记忆体问题。如果记忆体问题得不到解决,即便我们把OpenClaw训练得再好,它也会出现“忘事”的情况:比如忘记之前执行过的步骤、忘记已掌握的运维经验、忘记任务的核心需求等。这种“忘事”的现象,甚至比训练不到位更具灾难性——因为它会直接导致任务执行出现偏差,进而影响最终的运维结果,严重时还可能引发数据库故障,造成不可挽回的损失。
当上述所有问题都得到妥善解决后,后续的工作就相对清晰了,主要围绕以下几个方面推进,逐步让OpenClaw落地应用:
我相信,完成这些工作之后,我的OpenClaw一定能成为我数据库运维工作中的得力助手,帮我分担大部分工作压力,让运维工作更高效、更精准、更轻松。