顶会顶刊AI安全论文研读第三期：ICML 2025 | GuardAgent：让AI智能体“有守护者”的第一步

用户4179374

发布于 2026-06-22 19:28:44

1110

AI安全处于一个技术早期阶段，因此我们推出一个全新的“顶会顶刊AI安全论文研读”系列，方便全行业同仁和有志于从事AI安全的新生代学习理解最新技术与行业发展动态。

本次为大家带来的是第三期：ICML 2025 | GuardAgent：让AI智能体“有守护者”的第一步。

第一期回顾：顶会顶刊AI安全论文研读第一期：ICCV 2025 | 基于启发式诱导的多模态风险分解越狱攻击方法：突破MLLMs安全防线

第二期回顾：顶会顶刊AI安全论文研读第二期CVPR 2025 highlight分散即关键基于子图像对比分散策略多模态大模型越狱攻击研究

作者介绍

本研究由佐治亚大学、芝加哥大学、UIUC、伯克利、德州大学奥斯汀、埃默里大学等多所高校联合完成。团队成员长期关注大语言模型（LLM）安全与智能体可信性问题，本文提出了首个可“守护其他智能体”的智能体框架——GuardAgent。

导读

随着大语言模型（LLMs）逐渐进化为能自主规划与执行任务的智能体（LLM Agents），它们在医疗、金融、网页操作等复杂场景中展现出强大潜力，但也带来了全新的安全挑战。传统只针对文本输出的“有害内容过滤”已无法防范智能体在行动层面的风险，例如一个医疗Agent可能误泄病患隐私，一个网页Agent可能替未成年人下单酒品。

为此，该论文提出了GuardAgent——首个能“守护其他智能体”的智能体安全框架。GuardAgent通过知识增强推理（Knowledge-Enabled Reasoning），自动理解安全守护请求，生成并执行可验证的防护代码，实现对智能体行为的动态约束。

同时，论文还构建了两个全新基准，用于系统评估智能体安全：

• EICU-AC：用于测试医疗智能体的访问控制与隐私保护；

• Mind2Web-SC：用于评估网页智能体在不同用户身份下的行为安全。

在这两个高风险任务中，GuardAgent以98%（EICU-AC）与83%（Mind2Web-SC）的守护准确率显著超越现有方法，为AI智能体时代建立起首个可泛化、可执行的行为级安全防线。本工作对应的论文已开源。

【论文题目】GuardAgent: Safeguard LLM Agents via Knowledge-Enabled Reasoning

【论文链接】https://arxiv.org/abs/2406.09187

【代码链接】https://guardagent.github.io/

研究背景

随着大语言模型（LLMs）逐渐进化为能自主规划与执行任务的智能体（LLM Agents），它们在医疗、金融、自动驾驶与网页操作等场景中展现出惊人的执行力。一个Agent可以自动检索病历、调用数据库、操作网页表单，甚至独立完成交易或诊断决策。

然而，这种强大的“行动能力”也带来了前所未有的安全挑战。传统的文本级安全防护（如检测输入输出中是否含有不当言论）只关注“说什么”，却无法限制智能体在“做什么”上的风险。例如医疗Agent可能在错误身份下访问患者诊断信息，触发隐私泄露；

Web Agent可能误判用户身份，执行了未成年用户的禁购行为。当前的防御体系仍存在显著局限：一方面，大多数方法依赖规则硬编码（Hardcoded Rules

），必须为每个智能体单独编写安全策略，过程繁琐且难以泛化；

另一方面，这些防御通常仅监控文本层面，无法真正理解或阻止智能体在行动层面（如API调用、数据库查询、网页点击）上的潜在违规行为；更为关键的是，缺乏统一的评测标准使得研究者难以系统地衡量不同智能体在实际执行任务时的安全性，从而导致这一领域长期停留在零散探索阶段。为填补这一空白，研究团队首次构建了两大智能体安全基准：

•EICU-AC（Access Control）：以医疗智能体为对象，考察不同身份（医生、护士、管理员）对数据库访问权限的正确性，从而衡量隐私保护水平；

•Mind2Web-SC（Safety Control）：以网页智能体为对象，模拟不同用户身份下的行为限制（如未成年人禁购、疫苗状态限制、驾驶证检查等），评估智能体对安全规则的遵守情况。

这两个基准首次将智能体的“行为安全”问题系统化、可量化，为后续研究提供了可靠的测试框架。

在此基础上，作者提出了GuardAgent——一个能主动守护其他智能体的安全代理。不同于以往基于文本检测的防护，GuardAgent采用知识增强推理（Knowledge-Enabled Reasoning）机制，通过调用记忆模块学习过往经验，自动生成“任务规划（Task Plan）”与“守护代码（Guardrail Code）”，并执行这些代码来验证智能体的行为是否违反安全约束。简而言之，GuardAgent让“智能体拥有自己的安全员”：它不仅能理解复杂的守护请求，还能在执行层面以代码方式落实防护，从而实现真正的可解释、可泛化、可执行的安全防线。

动机和基准构造

随着网页型智能体（Web Agents）逐渐被应用于购物、订票、求职、信息检索等现实场景，它们在自动化交互中的能力不断增强——可以“看懂”网页结构、填写表单、点击按钮，并根据用户指令完成整套操作流程。

然而，这种高自由度的行动能力也带来了新的风险：如果智能体无法正确识别用户身份或缺乏安全约束，它可能会在无意中突破现实中的行为规则。例如护士窃取患者信息，未成年人完成租车任务。

这些问题说明，现有智能体虽然具备执行复杂网页任务的能力，却缺乏对“安全策略（Safety Policies）”的理解与执行能力。传统的文本过滤或硬编码规则无法应对这种“行动层级”的违规风险。

为了全面评估大语言模型智能体（LLM Agents）在行动层面的安全性，研究团队首次构建了两项全新的评测基准——EICU-AC 与 Mind2Web-SC。它们分别聚焦于医疗场景中的隐私访问控制与网页场景中的行为安全策略，从两个维度系统化地刻画了智能体在“能否安全执行任务”这一核心问题上的表现。

1）EICU-AC：医疗访问控制基准

EICU-AC 源自真实的重症监护数据库 EICU Dataset，聚焦于医疗智能体在不同用户身份下的访问权限管理。

研究者设计了三类典型角色——医生、护士与行政人员，并由临床专家与 GPT-4 共同标注各类数据表的可访问范围。在该基准中，每个样例都包含一条医疗查询、用户身份及其访问权限标签，测试智能体能否在生成 SQL 查询或检索代码时正确遵守隐私约束。这一基准首次将“医疗数据访问控制”转化为可量化任务，反映出智能体在执行阶段的合规性。

2）Mind2Web-SC：网页安全控制基准

Mind2Web-SC 构建于通用网页任务数据集 Mind2Web 之上，用于评估智能体在不同用户状态下的行为安全。研究团队引入了六条常见安全规则，如“未成年人禁止预订酒店”“未接种疫苗者不能登机”“无驾照用户禁止租车”等，并为每个任务随机生成带有年龄、会员、驾照等属性的用户档案。通过标注智能体行为的“允许 / 拒绝”结果，Mind2Web-SC 能全面检验智能体是否在执行网页操作（如点击、下单、填写表单）时遵守相应的社会与平台规范。

这两个基准共同奠定了智能体安全研究的基础——它们不再只评估“模型输出是否安全”，而是首次让安全性与智能体行为绑定，成为 GuardAgent 框架验证的关键支撑。两个基准的示例如图1所示。

图1: EICU-AC和Mind2Web-SC基准示例，左侧EICU-AC示例，右侧Mind2Web-SC示例

方法

GuardAgent 的核心理念是让安全守护从“语言约束”迈向“行为约束”，通过知识增强推理（Knowledge-Enabled Reasoning）实现对智能体行动的动态审查与确定性控制。不同于仅依赖模型判断文本是否安全的传统守护方式，GuardAgent能够理解任务上下文、规划防护流程、生成可执行代码并真正落实安全策略。整个框架主要由三个环节构成：任务规划（Task Planning）、守护代码生成与执行（Guardrail Code Generation and Execution）、以及记忆与工具箱机制（Memory & Toolbox）。三者协同工作，使GuardAgent能够像一个“有经验的安全审查员”那样，既能思考也能执行。

图2: GuardAgent 对其他目标智能体在多样化任务上的保护示意图

1) 总体框架与示意图

GuardAgent 的整体框架以“知识增强推理（Knowledge-Enabled Reasoning）”为核心，通过任务规划、代码生成与执行、以及记忆-工具箱机制三部分协同，实现对智能体行为的全流程安全守护。系统首先理解安全请求与智能体任务，再生成可执行的防护计划和代码，并通过外部引擎进行验证，最终将结果存入记忆模块以实现经验复用。这样，GuardAgent 将抽象的安全策略转化为可执行的逻辑，形成了一个可解释、可扩展、可持续学习的智能体安全框架。整体框架如图2所示。

2) 任务规划阶段

在任务规划阶段，GuardAgent接收四类输入：

* 安全守护请求（Ir） —— 由用户或系统给出，描述需要遵守的规则，如“护士不得访问诊断数据库”或“未成年人禁止预订酒店”；

* 目标智能体说明（Is） —— 包含目标智能体的任务类型、输入输出格式、执行日志等，使GuardAgent理解其行为语境；

* 智能体输入与输出（Ii, Io） —— 代表目标智能体实际执行的操作，例如生成的SQL查询语句、网页点击行为、推理链路等；

* 规划指令（Ip） —— 由研究者提供的系统级说明，指导GuardAgent如何将安全检查分解为逻辑步骤。

GuardAgent将这些输入组合后，通过大语言模型推理生成一份任务执行计划（Action Plan, P）。

这份计划是系统内部的“思维链”，以自然语言形式描述整个守护流程：它会先识别关键变量（如身份、数据库名、用户属性），再匹配安全规则中的约束条件，最后形成可操作的逻辑指令。例如，在EICU-AC中，计划可能包含“提取用户角色→比对访问表格→判断权限是否匹配”；在Mind2Web-SC中，则可能为“读取用户年龄→匹配网页任务类别→检查是否违反安全规则”。这一阶段的输出是结构化的防护逻辑描述，为后续的代码生成提供语义蓝图。

3) 守护代码生成与执行阶段

在获得任务计划后，GuardAgent会将自然语言逻辑“编译”为可执行的防护代码（Guardrail Code, C）。此过程依托LLM的生成能力完成，其输入包括任务计划（P）、可调用函数集（F）、目标智能体的输入输出（Ii, Io），输出则是一段可执行的Python代码。

生成的代码通过一个外部引擎（E）执行，从而得到守护判断结果（Ol, Od）：

* Ol 表示标签结果（0 = 安全，1 = 违规）；

* Od 给出违规细节（例如“访问了无权限数据库 diagnosis”或“用户年龄未满18岁”）。

执行过程是整个系统“从语言到行动”的关键。GuardAgent利用函数库中的安全检查函数，如 CheckAccess()、CheckRules() 等，直接验证行为是否符合安全策略。不同于传统基于自然语言的模糊判断，GuardAgent的验证结果来自真实的代码执行，因而具有可复现性与确定性。

若在执行过程中出现运行错误（如类型不匹配或变量缺失），GuardAgent会调用LLM分析错误信息并自动修复代码，直到能够正确运行。这样设计保证了系统在真实环境中的稳定性与可靠性。

4) 记忆模块与工具箱机制

为了让系统具备知识增强推理的能力，GuardAgent引入了一个长期记忆模块（Memory Module）和可扩展的工具箱（Toolbox）。

记忆模块用于存储历史任务的关键信息，包括目标智能体的输入输出、生成的任务计划和守护代码。每一条记忆都可视为一个完整的示例样本 [Ii,D, Io,D, PD, CD]，其中 PD 表示过往的计划步骤，CD 表示对应的防护代码。当GuardAgent面对新任务时，它会计算新输入与记忆样本的相似度（例如通过Levenshtein距离），检索出最相关的示例并注入LLM提示中，实现经验复用与上下文学习。这种机制让GuardAgent能在无需重新训练的情况下快速适应新场景，并积累“跨任务安全知识”。

工具箱（Toolbox）则相当于系统的外部能力接口。它包含一系列可调用的函数，每个函数都有明确的输入参数和执行语义，如 CheckAccess(role, database)、CheckRules(profile, ruleset) 等。研究者或开发者可根据具体领域添加新函数，例如金融风险审计、隐私数据脱敏、或自动驾驶安全检测。这样，GuardAgent可以通过扩展工具箱轻松适配不同任务类型与守护目标，形成“通用安全守护代理”。

总体而言，GuardAgent通过“任务规划—代码执行—知识增强”的闭环机制，将抽象的安全规则转化为可验证的程序逻辑。它能够理解复杂的守护请求，生成具有可执行性的防护代码，并在执行中持续自我修正。依托记忆与工具箱，GuardAgent不再局限于单一场景，而成为一种可泛化、可扩展的智能体安全守护框架。这一设计实现了从“语言安全”到“行为安全”的跨越，为智能体的可信部署提供了坚实的技术基础。

实验效果

实验设置

1）数据集和目标智能体

在两个新构建的智能体安全基准上评测 GuardAgent：

① EICU-AC（医疗访问控制），以 EHRAgent 为目标，被测任务是不同身份（医生/护士/行政）对多张 ICU 数据表与字段的合规访问；

② Mind2Web-SC（网页安全控制），以 SeeAct 为目标，被测任务是用户在旅行/购物/娱乐等真实网页上的行为是否遵守六类安全策略（如未成年订房、无驾照租车、非会员购物等）。

两个基准均提供输入任务、用户侧信息/身份、以及应当“允许/拒绝”的标签与违规细项，用于评测行动层面的安全性而非仅文本安全。

2）对比方法

与三类强基线对比：

* Model-Guarding-Agent：用同等规模的 LLM（GPT-4、Llama3-70B/3.1-70B/3.3-70B）直接按精心提示做“自然语言判定”的守护，不生成可执行代码；

* Hardcoded Safety Rules：将访问控制或网页规则硬编码到目标智能体的系统提示中，让其自审自罚；

* LlamaGuard（Model-Guarding-Model）：代表“输入/输出内容”级别的通用文本安全卫士，用于检验其在智能体行动安全任务上的适用性。以上基线设定与 GuardAgent 共用相同的核心 LLM 配置与输入输出，以保证可比性。

3）评价指标

为同时衡量“拦截准确性、解释充分性、与对原任务性能的影响”，我们使用五个指标：

• LPA（Label Prediction Accuracy）：是否正确给出“允许/拒绝”的最终标签；

• LPP / LPR（Precision / Recall）：对“拒绝（违规）”这一正类的精确率与召回率；

• EA（Explanation Accuracy）：在应当拒绝的样本上，是否完整指出所有违规点（如不可访问的数据表/字段，或被触犯的具体网页规则）；

• FRA（Final Response Accuracy）：在应当允许的样本上，是否既放行又保证目标智能体原任务结果正确，用于衡量“守护是否不伤性能”。指标在两个基准上均以样本级聚合、百分比形式报告。

4）实验细节

GuardAgent 默认以 “任务规划 → 守护代码生成与执行” 两阶段工作流运行；使用可调用函数库（如 CheckAccess / CheckRules）与外部执行引擎完成确定性验证；并从记忆模块（人工初始化）检索少量示例做 in-context 提示（EICU-AC 取 k=1，Mind2Web-SC 取 k=3），同时在必要时启用自动调试以修复代码执行错误。核心 LLM 采用 GPT-4 与 Llama3 系列（温度设为 0）进行对比复现实验。

核心实验结果对比

表1：GuardAgent与基线方法的性能对比

表1的结果表明，GuardAgent在两个基准（EICU-AC与Mind2Web-SC）上相较于Model-Guarding-Agent基线取得了显著更高的准确率（LPA均超过98%与83%），且解释准确率（EA）也明显更优。其性能优势主要来源于基于推理的代码生成机制：与仅依赖语言模型判断的基线不同，GuardAgent会严格依据安全守护请求生成并执行防护代码，从而避免了因LLM“自主性”导致的误判。例如在护士访问任务中，基线错误地授予了无权限的数据库访问，而GuardAgent通过执行防护代码成功阻止了此类违规行为。

消融实验

图3：查GuardAgent 在 EICU-AC 的三类角色与 Mind2Web-SC 的六类安全规则下表现

1）不同安全防护要求下的表现

如图3所示，消融结果表明，GuardAgent 在不同角色与安全守护请求下整体表现一致，无论是医疗访问控制还是网页安全策略任务，都能保持高准确率与强泛化能力。其在 GPT-4 与 Llama3.3-70B 两种模型上的表现高度一致，证明方法具备模型无关性。唯一的性能下降出现在 Mind2Web-SC 的规则5（影视与音乐类内容）上，主要原因是该规则语义范围较宽、实例内容多样，导致模型难以建立精确的规则匹配。然而，除这一极端情形外，GuardAgent 在其余规则上均展现出稳定可靠的守护能力，体现出其在处理复杂、多样化安全请求时的强适应性与稳健性。

图 4：GuardAgent在不同数量的记忆示例下于EICU-AC和Mind2Web-SC上的表现变化

2）记忆模块的影响

图4实验结果表明通过调整从记忆库中检索的示例数量，分析了记忆机制对GuardAgent性能的影响。结果显示，记忆模块对系统性能至关重要，即使仅提供极少量的示例，GuardAgent也能达到稳定且高水平的守护准确率和解释性。这表明其少样本泛化能力（few-shot generalization）极强，能够通过记忆复用快速适应不同任务与安全策略。整体而言，GuardAgent在拥有记忆增强后，表现出显著的学习效率与可扩展性。

表2：工具箱和记忆模块的影响

3）工具箱的影响

实验在EICU-AC基准上检验了工具箱对GuardAgent性能的影响。结果显示，当移除与安全守护相关的函数及相应示例后，GuardAgent的标签预测准确率（LPA）从98.7%下降至90.8%，解释准确率（EA）从97.5%下降至96.1%，说明工具箱中的函数对于代码生成阶段至关重要。

值得注意的是，GuardAgent在缺乏函数支持的情况下，仍能通过自动定义缺失函数或生成等价的程序逻辑（如图5所示）实现防护目标，体现了其较强的自修复与推理能力。

此外，表2进一步表明，移除工具箱和记忆模块主要降低了代码的可执行率，导致守护精度下降。这些结果共同验证了工具箱在提升代码可执行性与系统稳定性中的关键作用，也展示了GuardAgent在应对新安全请求时的高适应性与可扩展性。

结语

总体而言，GuardAgent 代表了从“语言安全”迈向“行为安全”的重要一步。它不再仅依赖模型层面的文本过滤，而是通过知识增强推理，主动理解安全策略、规划守护流程，并以可执行代码落实安全约束，实现了真正可解释、可验证、可复现的智能体防护。

实验结果表明，GuardAgent在两个全新构建的基准——EICU-AC与Mind2Web-SC——上均显著超越现有方法，在多模型、多场景下展现出强大的泛化性与稳定性。消融实验进一步验证了记忆模块与工具箱机制的关键作用，使系统能以少量示例实现高效守护，并在缺失函数时保持自适应的防护能力。

从更广的视角来看，GuardAgent提出了一种新的安全范式：让智能体拥有“守护者”。这一理念不仅能提升单一模型的可信度，也为未来多智能体协同安全（Agent-Guarding-Agent）提供了可行路径。随着智能体逐步走向现实应用，GuardAgent为构建可控、可靠且负责任的AI生态奠定了坚实基础。

关于 BraneMatrix（布兰矩阵）

我们是一家由顶级安全专家、全球知名算法科学家、专家资深红队研究员和全栈创造力出类拔萃开发者共同创立的新型安全公司，致力于打造全球领先的大模型算法安全检测平台与防御系统。

我们的使命是：