AI 系统经常接收来自多个渠道的指令。系统消息中的安全策略、开发者的产品指南、用户请求,以及从互联网获取的信息。
当优先级机制失效时,安全与可靠性问题随之而生。模型可能执行获取违禁内容、泄露隐私或“提示注入”等攻击性指令。这些问题的根源在于模型选择了错误的指令。
“指令层级”任务为解决上述问题提供了有效路径。
高优先级的指令更受信任。只有在不违背高优先级约束的前提下,模型才应遵循低优先级的指令。
例如,如果系统消息 (System Message) 包含安全策略,而用户请求模型违反该策略,模型应当拒绝执行。如果工具输出 (Tool Output) 中包含恶意指令,模型应当将其忽略,而不是将其视为命令执行。

当两项指令发生冲突时,右侧模型能正确遵循优先级更高的开发者指令,而非用户指令。
强化学习 (RL) 是教授指令层级的天然选择。我们可以生成包含指令冲突的对话场景,提示模型做出响应,并在其遵循正确层级指令时给予奖励。
然而,简单套用这一方案会面临三个主要陷阱:
指令遵循失败与指令层级失败的混淆: 模型可能无法解决指令冲突,其原因并非它不理解角色的层级关系,而是因为指令本身过于复杂。在这种情况下,指令遵循能力的不足会伪装成层级认知的缺失。
指令冲突具有微妙性甚至主观性。一种通用的方法是让一个独立的大语言模型 (LLM) 作为裁判,为正在接受训练的模型分配奖励。但裁判模型本身也是会犯错的。
模型倾向于通过“走捷径”获取高分,但在实践中却毫无用处(在新窗口中打开)。典型的例子就是过度拒答 (Overrefusal)。模型可能会为了最大化安全性评分,学会拒绝甚至包括良性请求在内的所有指令。
OpenAI设计了 IH-Challenge — 一套强化学习 (RL) 训练数据集,旨在避免上述所有陷阱。

IH-Challenge 中的每个任务本质上是一场包含以下消息的对话:
来自高权限角色的指令消息:例如,“仅回答‘是’或‘否’”。
来自低权限角色的指令消息:该消息试图诱导模型违反高权限消息中的指令。
受训模型负责生成下一条消息。




更强大的指令层级结构能同时带来多重安全效益,包括安全可控性的增强,以及抗“提示注入”稳健性的提升。
经过 IH 训练的模型展现出了持续的改进:在存在安全规范的情况下,该模型在所有违规类别中均实现了更高的拒绝率和安全完成率。更强的指令层级行为使模型在处理来自低优先级指令的不安全请求时,能够更出色地解决冲突。

其他领域的安全性提升


IH-Challenge 数据集链接: https://huggingface.co/datasets/openai/ih-challenge
原始论文地址:https://arxiv.org/pdf/2603.10521
