小龙虾大战傀儡师

用户11705094

发布于 2026-07-02 09:46:31

540

根据开放全球应用安全项目（OWASP）发布的 OWASP Top 10 for Large Language Model Applications 报告，提示词注入（Prompt Injection）被列为大语言模型应用的头号安全威胁。

OpenClaw 的创始人 Peter Steinberger 在访谈中提到，当他将自己的没有安全限制的 AI 助手放入公开的 Discord 频道时，用户几乎是立刻就开始尝试进行 Prompt 注入和黑客攻击。

如同傀儡师试图通过操纵丝线，来接管并操控 AI 这个傀儡。

攻击者通过输入精心设计的提示词，操纵模型偏离预设指令，执行非预期操作。

例如，绕过原始设定、泄露系统提示、执行未授权操作或篡改输出逻辑等。

其核心机制源于LLM在架构上无法有效区分系统指令与用户输入。

两者均以自然语言形式处理，导致恶意输入可能覆盖或绕过原始安全设定。

随着 AI Agent 的广泛应用，提示词注入的攻击场景进一步扩展。

例如，生成并执行高危系统命令，或在 Web3 场景中诱导 Agent 调用钱包插件执行未经授权的链上转账。

攻击载体也从直接的聊天输入，扩展到网页、文档、邮件、市场数据等外部数据源中的隐藏指令。

传统基于规则或边界的安全防护手段在此场景下可能失效，这使得防御提示词注入成为一个系统性挑战。

安全的核心原则在于假设大模型已被攻陷。

我们不依赖模型自身的绝对安全，而是通过在模型周围构建物理与逻辑层面的隔离带，彻底阻断越权操作的链路。

第一道防线：访问与渠道

准入层：零信任 DM 配对机制

系统将所有来自通讯平台的私聊信息视为不可信输入（Untrusted Input）。

DM （Direct Message，直发消息）配对策略：默认情况下，未知发送者向助手发送消息时，会收到一个配对码，且助手在配对完成前不会处理其任何消息。
手动批准：主人必须在本地终端运行 openclaw pairing approve <channel> <code> 指令，才能将发送者加入允许列表。这一机制从物理层面阻断了匿名攻击者实施注入的可能。
公共敞口控制：仅在极端明确的场景下启用 open 策略并在白名单中配置 allowFrom。
诊断工具：定期运行 openclaw doctor 扫描并暴露高风险的 DM 策略配置。

这就像是给 AI 雇了一个门卫，陌生人必须拿到验证码，并经过你点头同意，才能进屋跟 AI 说话。

第二道防线：模型与指令

模型层：基础模型韧性

OpenClaw 官方安全建议指出尽管支持多种模型，但为了降低 Prompt 注入风险，必须使用最强大的、最新一代的前沿模型。

最新一代模型具备极高的指令遵循能力与意图识别精度，能更敏锐地区分系统级安全约束与用户恶意输入伪装。

模型意图识别能力一旦降级，直接等同于系统抗注入防线的物理降级。

指令层：架构级上下文压制

OpenClaw 通过系统提示词（System Prompt）、 soul.md 、AGENTS.md 、TOOLS.md 等文件注入核心指令，明确要求 AI 仅服从所有者（Owner）。

本地 Markdown 身份配置在上下文窗口中拥有最高执行权重，使轻量级的外部入站攻击直接失效。

即便在公共频道中与多人互动，AI 也会根据指令，拒绝非所有者的控制请求。

第三道防线：隔离

执行层：强制 Docker 沙箱隔离

为了防止 AI 被诱导执行破坏性代码，OpenClaw 引入了环境隔离机制：

会话分级：系统区分主会话（Main）与非主会话（Non-main）。对于群组或公共频道，系统强制开启 sandbox.mode: "non-main"。
物理隔离执行：在沙箱模式下，所有 bash 指令均在独立的 Docker 容器中运行，而非宿主机。即便 Prompt 注入成功诱导 AI 生成了恶意脚本，该脚本也只能在受限的容器内运行，无法触及宿主机文件系统或进行提权。

工具层：细粒度的黑白名单管控

系统通过工具权限控制，进一步限制了注入攻击后的危害范围：

允许（Allowlist）：沙箱环境仅允许使用 bash、read、write 和基础会话工具，如 sessions_send 等。
拒绝（Denylist）：在沙箱中明确禁止使用浏览器（browser）、实时画布（canvas）、系统节点（nodes）、定时任务（cron）以及网关控制（gateway）工具。这有效防止了攻击者利用注入指令实现持久化渗透或越权控制其他硬件。

第四道防线：操作系统

权限层：动态手动提权开关

默认必须保持/elevated off。

即便是在已授权的会话中，OpenClaw 也设计了逻辑屏障：

提权控制：执行涉及主机权限的敏感操作前，用户必须通过 /elevated on|off 指令手动开启该会话的提权模式。
权限持久化：网关会记录该提权状态，确保高风险操作必须经过主人的明确授权，而非由 AI 被动触发。

硬件层：权限分离和隐私屏蔽

TCC 代表透明度、同意与控制（Transparency, Consent, and Control）。

这就是当你打开一个 App 时，macOS 弹出的那个“是否允许该应用访问你的摄像头/麦克风/定位？”的对话框。

权限分离：

代码权限：当你输入 /elevated on 时，助手获得了操作你电脑文件的权力。
隐私权限：即便助手能操作文件，它也不能直接打开你的摄像头或录制屏幕。
互不干扰：执行系统命令的权力，并不自动包含访问隐私硬件的权力。这种一码归一码的设计就是权限分离。

隐私屏蔽：

防偷窥：如果恶意 Prompt 诱导 AI 偷偷调用摄像头，但你没有在 macOS 系统层面授权，AI 就会收到一个 PERMISSION_MISSING（权限缺失）的错误，操作会被物理拦截。
显式授权：所有涉及摄像头（camera.*）、屏幕录制（screen.record）和地理位置（location.get）的操作，都必须遵循 macOS 官方的 TCC 状态。
防止静默越权：通过这种设计，AI 助手在没有你手动点下 macOS 系统弹窗“允许”的情况下，永远无法获取你的私人视觉或位置信息。