
在 OWASP 发布的 2025 版 LLM 应用十大安全风险清单中,提示词注入(Prompt Injection)位列第一,是公认的最大安全风险。

提示词注入是指攻击者通过特定输入,改变大模型的预定行为或操纵其输出的漏洞。
其本质是模型无法区分指令与数据,导致恶意内容被误当作指令执行。

提示词注入是操纵模型行为的广义概念。
越狱是其特定形式,指诱导模型完全无视安全协议。
防御上,注入攻击可通过系统提示词和输入过滤缓解。
越狱则需要持续更新模型的底层训练和安全机制来预防。

分为直接注入和间接注入两种类型。

提示词注入攻击成功会引发一系列后果。
其严重程度取决于业务上下文以及模型被赋予的代理权限。
9个典型攻击场景和6个案例如下:







由于生成式 AI 随机性的特质,目前尚未存在能够完美预防提示词注入的绝对方案。
微调与 RAG 也无法根除此漏洞。
防御必须抛弃单点依赖,转向系统级的纵深架构。
其本质是构建一套即使大模型完全被操控,也无法对业务产生实质破坏的坚韧架构。


防御策略:

本文分享自 magicyuan的AI随笔记 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!