突破长链路渗透测试瓶颈：基于“全局规划+解耦执行”的多智能体架构实践

原创

gawain2048

发布于 2026-05-15 17:04:32

1540

直击动态环境与指数级攻击路径规划困境

在真实的网络安全渗透测试中，系统环境高度动态且信息不完备。传统测试方法与早期基于大语言模型（LLM）的单智能体（Single Agent）方案正面临严峻的工程化瓶颈。核心痛点集中在以下三个维度：

攻击路径指数级爆炸： 真实渗透具有长链路、多阶段、强依赖的特性。单智能体在应对复杂的内网渗透、域渗透场景时，易受幻觉影响，规划极不稳定。
冗余数据干扰决策： 安全工具输出的结果复杂且噪声极高，冗余信息直接拉低智能体决策的准确率，导致关键决策失败。
多智能体开销与运维成本过高： 常规的多智能体（Multi-Agent）方案虽然任务拆解明确，但普遍存在运行速度慢、系统开销大、开发与调试困难等系统稳定性与运维成本（Ops Cost）问题。

部署“One Planner Agent”主导的轻量级协同系统

为解决上述瓶颈，系统采用 “Planner + Executor” 的解耦架构，通过顶层决策与底层执行的分离，构建轻量级的多智能体协同测试方案：

部署全局规划智能体 (Planner Agent)： 奉行“One planner agent to rule them all”原则。该智能体具备全局视野，利用树结构维护攻击路径，根据环境反馈动态更新状态并选取任务目标，但自身不执行具体攻击任务。
配置执行与检索智能体 (Executor Agents)： 包含攻击执行智能体与漏洞库检索智能体。攻击执行智能体通过命令行调用基于 Kali Docker 的交互工具集；漏洞库检索智能体负责多源数据融合，动态构造攻击工具与漏洞利用（Exp）代码。
构建独立解题调度模块： 采用传统算法设计调度模块，代理智能体与目标 API 的交互，避免 Agent 直接并发访问造成 DoS。同时通过 Docker 隔离资源，精细管理智能体的生命周期，降低开发成本与系统崩溃风险。

量化自动化评测体系与动态调度收益

通过系统化的架构设计，该方案在数据资产沉淀、评测环境构建及调度执行效率上实现了具体的量化产出：

整合 30,000+ 条 Web 漏洞数据： 漏洞库检索智能体通过公开来源深度收集数据，支持基于大模型的语义检索与精确的版本匹配，极大提升漏洞利用代码生成的成功率。
构建涵盖 13 个靶场、737 个测试题目的评测环境： 实现了一套完整的自动化渗透测试原型系统与评测体系，支持接入国内外学术界、工业界顶尖开源工具进行标准化对比实验。
执行动态难度匹配调度策略： 调度模块实时动态分配算力——当 Agent 顺利解决简单题时增加难题尝试概率；失败则回调难度。此策略在实战中确保了智能体能够持续、稳定地输出解题结果，大幅降低了因内存溢出（OOM）或容器崩溃导致的时间浪费。

清华大学战队实战验证与策略解码

该技术方案由清华大学战队（演讲人：张书樵及多所高校红队选手）在实战中全面落地，并依托腾讯安全众测平台进行了真实环境检验。

团队凭借该解耦架构与动态调度策略，以 21道解题数（不含demo赛题）和 5490 分 的绝对优势位列排行榜首位。
在抢占关键节点的效率上取得显著战果：率先进入第三赛区关卡，并在第二赛区斩获 5 个一血（First Blood）、2 个二血；在第三赛区斩获 2 个一血、1 个二血，充分验证了该系统在复杂并发场景下的高执行效率与技术确定性。

确立大模型在自动化安全攻防场景的工程化标准

本方案在第二届智能渗透挑战赛·决赛（腾讯云黑客松）中荣获顶尖成绩。其核心价值在于证明了在网络安全自动化攻防领域，单纯堆砌多个 LLM Agent 并不能解决实际问题。通过引入传统的树结构路径管理、Docker 级资源隔离以及严格的“顶层规划-底层执行”任务解耦，成功将大模型的生成能力转化为可控、稳定、低开销的工程化生产力。相关数据集与评测体系的后续开源，将为整个自动化渗透测试行业提供高价值的基础设施级参考。

(数据及案例来源：腾讯云黑客松《第二届智能渗透挑战赛·决赛》会议材料)

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

渗透测试