
根据开放全球应用安全项目(OWASP)发布的 OWASP Top 10 for Large Language Model Applications 报告,提示词注入(Prompt Injection)被列为大语言模型应用的头号安全威胁。
OpenClaw 的创始人 Peter Steinberger 在访谈中提到,当他将自己的没有安全限制的 AI 助手放入公开的 Discord 频道时,用户几乎是立刻就开始尝试进行 Prompt 注入和黑客攻击。
如同傀儡师试图通过操纵丝线,来接管并操控 AI 这个傀儡。

攻击者通过输入精心设计的提示词,操纵模型偏离预设指令,执行非预期操作。
例如,绕过原始设定、泄露系统提示、执行未授权操作或篡改输出逻辑等。
其核心机制源于LLM在架构上无法有效区分系统指令与用户输入。
两者均以自然语言形式处理,导致恶意输入可能覆盖或绕过原始安全设定。

随着 AI Agent 的广泛应用,提示词注入的攻击场景进一步扩展。
例如,生成并执行高危系统命令,或在 Web3 场景中诱导 Agent 调用钱包插件执行未经授权的链上转账。
攻击载体也从直接的聊天输入,扩展到网页、文档、邮件、市场数据等外部数据源中的隐藏指令。
传统基于规则或边界的安全防护手段在此场景下可能失效,这使得防御提示词注入成为一个系统性挑战。

安全的核心原则在于假设大模型已被攻陷。
我们不依赖模型自身的绝对安全,而是通过在模型周围构建物理与逻辑层面的隔离带,彻底阻断越权操作的链路。


第一道防线:访问与渠道
准入层:零信任 DM 配对机制
系统将所有来自通讯平台的私聊信息视为不可信输入(Untrusted Input)。

这就像是给 AI 雇了一个门卫,陌生人必须拿到验证码,并经过你点头同意,才能进屋跟 AI 说话。

第二道防线:模型与指令
模型层:基础模型韧性
OpenClaw 官方安全建议指出尽管支持多种模型,但为了降低 Prompt 注入风险,必须使用最强大的、最新一代的前沿模型。
最新一代模型具备极高的指令遵循能力与意图识别精度,能更敏锐地区分系统级安全约束与用户恶意输入伪装。
模型意图识别能力一旦降级,直接等同于系统抗注入防线的物理降级。

指令层:架构级上下文压制
OpenClaw 通过系统提示词(System Prompt)、 soul.md 、AGENTS.md 、TOOLS.md 等文件注入核心指令,明确要求 AI 仅服从所有者(Owner)。
本地 Markdown 身份配置在上下文窗口中拥有最高执行权重,使轻量级的外部入站攻击直接失效。
即便在公共频道中与多人互动,AI 也会根据指令,拒绝非所有者的控制请求。

第三道防线:隔离

执行层:强制 Docker 沙箱隔离
为了防止 AI 被诱导执行破坏性代码,OpenClaw 引入了环境隔离机制:

工具层:细粒度的黑白名单管控
系统通过工具权限控制,进一步限制了注入攻击后的危害范围:

第四道防线:操作系统

权限层:动态手动提权开关
默认必须保持/elevated off。
即便是在已授权的会话中,OpenClaw 也设计了逻辑屏障:

硬件层:权限分离和隐私屏蔽
TCC 代表透明度、同意与控制(Transparency, Consent, and Control)。
这就是当你打开一个 App 时,macOS 弹出的那个“是否允许该应用访问你的摄像头/麦克风/定位?”的对话框。
权限分离:
隐私屏蔽:


创始人将毫无外部安全限制的 OpenClaw 部署在公开 Discord 频道。
面对社区接连不断的复杂提示词注入攻击,Agent未被攻破,甚至对攻击者进行了嘲讽。
它是如何做到的?
答案在于从内到外的深度防御架构。

本文分享自 magicyuan的AI随笔记 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!