# 一、简介：

大型语言模型（LLM）正革新并颠覆人类多个领域，其影响尚处于初步探索阶段。这类模型在规模与能力上高速迭代，架构及应用持续拓展，集成单LLM或多LLM代理的新型系统也不断涌现，逐步融入复杂且相互依赖的技术生态。因此，明确LLM的安全属性，对研发安全稳健的LLM系统至关重要。本文旨在梳理并分类LLM对抗性攻击构成的各类威胁。
对抗性攻击是机器学习领域已知的威胁向量。攻击者通过精心构造输入，驱使模型产生可预测的错误输出以谋取利益，这类输入扰动往往极其细微，几乎无法被人类察觉。攻击按目标可分为针对性攻击（将输出篡改为特定内容）与无针对性攻击（仅诱导模型出错），同时也因攻击者对模型内部结构的访问权限不同而存在差异。
传统机器学习模型中，对抗性攻击的防御极具挑战性。虽已提出多种防御方案，但对新型攻击的适应性与效果均较为有限。
将对抗性攻击延伸至LLM语境存在诸多独特挑战。LLM作为高自由度的复杂模型，具备规模庞大、生成式输出、语境持续、多模态融合等特征，且正深度融入复杂生态系统。这些特性使对抗性攻击的威胁呈现形式发生变化，需通过细致分析明确威胁模型，为构建系统性防御策略提供支撑。
# 二、案例分析：

从大语言模型（LLM）中获取有关如何制造炸弹的有害信息。该模型已经过微调/对齐，以防止向用户提供此类有害信息；然而，通过精心构造提示（prompt）绕过了模型的安全机制，成功获取了相关信息。
使用一个集成在浏览器中的大语言模型扩展程序作为购物助手。恶意商家查理在其商品页面的文本或图片中嵌入了对抗性信息，污染了购物助手所依赖的上下文，从而提高其商品被推荐的可能性。
使用一个增强型大语言模型编程助手来辅助编写代码。提供了一个对抗性示例，导致该模型生成了一段包含恶意后门的代码。

| | | | | |
|:-:|:-:|:-:|:-:|:-:|
|学习结构 (Learning Structures)|注入来源 (Injection Source)|攻击者访问权限 (Attacker Access)|攻击类型 (Attack Type)|攻击目标 (Attack Goals)|
|• 单模态大语言模型 (Unimodal LLMs)|• 推理阶段注入 (Inference)|• 黑盒攻击 (Black Box)|• 上下文污染 (Context Contamination)|• 控制输出 (Control Generation)|
|– 文本 (Text)|– 提示/文本 (Prompt/Text)|• 白盒攻击 (White Box)|• 提示注入 (Prompt Injection)|• 破坏对齐 (Break Alignment)|
|– 代码 (Code)|– 提示/多模态 (Prompt/Multi-Modal)|• 混合/灰盒攻击 (Mixed/Grey Box)|– 文本型 (Text)|• 降低性能 (Degrade Performance)|
|• 多模态大语言模型 (Multi-Modal LLMs)|– 检索信息 (Retrieved Info.)||– 多模态型 (Multi-Modal)||
|• 新兴结构 (Emerging Structures)|– 数据增强 (Augmentation)||• 增强操控 (Augmentation Manipulation)||
|– 增强型大语言模型 (Augmented LLMs)|• 训练/投毒阶段 (Training/Poisoning)||||
|– 联邦大语言模型 (Federated LLMs)|– 微调 (Fine-Tuning)||||
||– 对齐训练 (Alignment)||||
研究的对象既包括单模态（仅文本）大语言模型（LLM），也涵盖多模态模型（如同时处理文本与图像的模型），以及新兴架构，例如增强型 LLM、联邦 LLM 和多智能体 LLM。第 2.1 节简要介绍了与 LLM 相关的自然语言处理背景。
对抗攻击的关键维度之一是攻击者对模型的访问权限：
- 白盒攻击：攻击者掌握完整模型结构和参数，可通过反向传播优化对抗输入；
- 黑盒攻击：攻击者仅能与模型交互，无法获知内部细节，通常需构建代理模型并依赖攻击迁移性；
- 灰盒/混合攻击：攻击者部分了解模型（如知晓架构但不知参数，或知道微调前的参数）。

另一维度是注入来源——即攻击者投递恶意输入的渠道。传统上通过提示（prompt）注入，但随着模型支持外部输入（如文档、网页等用于检索增强或上下文分析），这些侧边输入源也成为新的攻击入口。
根据攻击机制，主要分为两类：
- 提示注入：直接诱导模型生成攻击者指定的恶意输出；
- 上下文污染：通过污染上下文，间接提高后续生成中出现攻击者期望内容的概率。

攻击目标通常包括：
1. 降低输出质量或引发更多幻觉；
2. 绕过安全对齐机制，使模型输出有害、敏感或违规内容；
3. 生成具危害性的输出，如含漏洞的代码或可被用于社会工程的文本。

上述四个要素——访问权限、注入来源、攻击类型、攻击目标——共同构成特定攻击的威胁模型
# 三、模型训练

1）从机器学习与深度学习视角理解大语言模型（LLM） 2）从安全视角理解对抗攻击。
### 1、模型架构（Model Architecture）


| | | | | |
|:-:|:-:|:-:|:-:|:-:|
|架构类型|训练方式|模型类型|预训练任务|代表模型示例|
|仅编码器|掩码语言建模（MLM）|判别式|预测被掩码词|BERT, Roberta, ALBERT, DeBERTa, ELECTRA|
|编码器-解码器|自回归 + MLM|生成式|预测下一个词 & 被掩码词|T5, GLM, T0, FLAN-T5, ST-MOE, ALexaLM, ChatGLM|
|仅解码器|自回归语言建模|生成式|预测下一个词|GPT-3, Gopher, BLOOM, GPT-4, Claude-2, PaLM 2|


----
### 2、训练数据（Training Data）


| | | | |
|:-:|:-:|:-:|:-:|
|数据类型|描述|分支说明|代表模型示例|
|通用数据|来自网页、书籍等涵盖广泛主题的内容|→ 多语言分支|BERT, Roberta, T5, GPT-1, Gopher, LLaMA|
|||→ 代码分支|CodeX, AlphaCode, CodeGen, Code Llama, StarCoder|
|专用数据|针对特定领域或任务的数据|（无细分分支）|PaLM, GLM-130B, BLOOM, LaMDA, PaLM 2|


----
### 3、对齐方法（Alignment）


| | | |
|:-:|:-:|:-:|
|对齐方式|方法说明|代表模型示例|
|指令微调|使用结构化指令实例微调模型|GPT-3, T0, FLAN-T5, FLAN-PaLM, InstructGPT, WizardLM, Alpaca, LLM-Blender, InstructZero|
|RLHF|基于人类偏好训练，生成符合期望输出|InstructGPT, Sparrow, OPT-IML, PKU-Beaver, REFINER, FINE-GRAINED RLHF|
语言模型的核心目标是为所有可能的文本序列分配概率。这一目标主要通过两种范式实现：自回归（autoregressive） 与 非自回归（non-autoregressive） 语言建模。
- 自回归语言模型 主要用于自然语言生成，其预训练任务为“下一个词预测”（next-word prediction）。
- 非自回归模型 则更侧重于自然语言理解，通常采用掩码语言建模（Masked Language Modeling, MLM）作为基础任务。经典的 BERT 系列模型即属于非自回归模型。

在 BERT 出现后，基于编码器架构的预训练语言模型（PLM）曾一度流行。然而，在当前的大语言模型（LLM）时代，几乎不再有 LLM 采用纯编码器结构。相反，编码器-解码器架构和仅解码器架构持续发展。例如：
- 基于编码器-解码器的模型：Flan-T5、GLM、ST-MoE；
- 基于仅解码器的模型：BloombergGPT、Gopher、Claude 2。

目前绝大多数 LLM 采用仅解码器结构，这很大程度上得益于 OpenAI 的 GPT 系列（从 GPT-1 到 GPT-4）所展现的卓越性能。
此外，还存在一种前缀解码器（prefix-decoder）架构，在前缀部分使用类似编码器的双向注意力机制，而在后续 token 预测时保持与仅解码器一致的自回归方式。代表性模型包括 GLM-130B 和 U-PaLM。


----
# 四、数据训练

## 1、训练数据

 除模型参数外，训练数据的数量、质量与多样性对 LLM 性能至关重要。预训练数据通常分为两类：
1. 通用文本数据：来自网页、书籍等广泛主题的内容，如 C4、Reddit 语料库、The Pile；
2. 专用文本数据：针对特定领域，如：

- 多语言数据（用于 BLOOM、PaLM）；
- 代码数据（来自 Stack Exchange、GitHub），用于训练 Codex、AlphaCode、Code Llama、StarCoder 等。


多样化的数据有助于提升模型泛化能力；若仅使用单一领域数据，则可能导致灾难性遗忘。不同领域数据的配比也显著影响最终性能。
## 2、训练策略

 LLM 训练包含两个关键步骤：
1. 预训练目标函数设计：

- 语言模型目标：即“下一个词预测”；
- 去噪自编码器（DAE）：输入被随机替换或遮蔽的文本片段，模型需恢复原始内容；
- 混合去噪器（Mixture-of-Denoisers）：通过不同特殊前缀标记（如 [R]、[S]、[X]）激活不同去噪策略，适应不同跨度长度与损坏比例。


1. 训练细节配置：

- 采用大批次（large batch size）；
- 学习率调度结合 warm-up 与 decay；
- 使用权重衰减（weight decay）和梯度裁剪（gradient clipping）以稳定训练过程。


----
## 3、数据对齐

能力激发:除预训练和微调外，通过精心设计的任务指令或上下文学习策略，可有效激发 LLM 的潜在能力。其中，指令微调尤为关键：使用（指令, 输出）对微调模型，使其能根据人类指令执行任务，甚至在未见过的任务上也能泛化。训练数据可来自人工标注集，也可由强大 LLM（如 GPT-4）自动生成.
安全对齐的语言模型 LLM 的预训练目标（最小化上下文词预测误差）与用户期望（“有用且安全地遵循指令”）存在本质差异。模型易继承训练数据中的偏见、毒性或不当内容。因此，确保模型“既乐于助人又无害”成为开发核心。
主流对齐方法包括：
- 指令微调：提升任务遵循能力；
- 基于人类反馈的强化学习（RLHF）：通过人类偏好训练奖励模型，再用该模型引导 LLM 生成更符合人类价值观的输出，并抑制有害内容。


----
# 五、机器学习模型的安全性

## 1、对抗攻击

早期研究发现，机器学习模型可被精心构造的对抗样本欺骗——例如，对停车标志图像添加微小扰动，即可让自动驾驶系统误判为限速标志，引发严重后果。
对抗攻击通过沿损失梯度方向添加微小扰动，最大化对模型输出的影响。通常设定扰动预算（noise budget），以保证攻击不可察觉。经典生成方法包括：
- FGSM（Fast Gradient Sign Method）：单步梯度符号扰动；
- PGD（Projected Gradient Descent）：多步迭代投影，是更强的攻击基准。

研究对抗攻击的目的主要有二：
1. 评估模型在真实对抗环境下的安全性与鲁棒性（如绕过内容过滤、恶意软件检测）；
2. 通过对抗训练（adversarial training）等手段提升模型鲁棒性，理解其最坏情况行为。

NLP 中的对抗攻击 由于文本是离散数据，无法直接套用图像领域的连续扰动方法。常见攻击层级包括：
- 字符级：插入、删除、交换字符；
- 词级：替换高/低注意力权重的关键词；
- 句子级：改写整个句子，保持语法正确但改变语义；
- 多层级组合攻击：提升成功率并增强隐蔽性。

## 2、威胁模型：黑盒 vs 白盒

根据攻击者对模型的访问权限，可分为：
- 白盒攻击：可获取模型参数，利用梯度直接优化输入嵌入；
- 黑盒攻击：仅能查询输入-输出，通过构建代理模型进行攻击。

攻击还可按操作粒度分为字符级、词级、句子级或多级组合。总体而言，对抗攻击的目标函数通常建模为一个带约束的优化问题，旨在最小化扰动的同时最大化输出偏差。
![image](https://developer.qcloudimg.com/http-save/yehe-8600665/05e1a5bfe2f7f47cc3f466820ffbc3d3.png)
- **θ** 表示模型参数，**x** 为原始干净输入，**y** 为其真实标签（ground truth）；
- **minₓₐdᵥ** 表示我们正在寻找使组合损失最小的对抗样本 **xₐdᵥ**；
- **λ** 是一个超参数，用于平衡原始任务损失与对抗损失之间的权衡：它控制在保证攻击有效性的同时，对扰动大小的抑制程度。

优化过程旨在找到一个扰动后的输入 **xₐdᵥ**，使其同时满足：
1. 尽可能降低原始任务损失 J(θ,xadv,y)J(θ,xadv,y)（即保持输入语义接近原样本）；
2. 尽可能增大对抗损失 Ladv(θ,x,xadv)Ladv(θ,x,xadv)（即让模型输出发生错误）。

最终目标是生成一个**能误导模型但扰动不可察觉**的对抗样本。对抗损失函数 LadvLadv 的具体形式因攻击方法和目标模型而异，常见选择包括交叉熵损失，或其他基于分布差异的度量（如 KL 散散度），用于量化模型对 **x** 和 **xₐdᵥ** 的预测差异。
具体的对抗攻击算法因场景而异。以下是一个简化版的**非目标攻击**伪代码：
```
import torch
import torch.nn as nn
import torch.nn.functional as F

def fgsm_attack(
    model: nn.Module,
    x: torch.Tensor,
    y: torch.Tensor,
    epsilon: float = 0.03,
    max_iter: int = 100,
    clip_min: float = 0.0,
    clip_max: float = 1.0,
    device: str = "cpu"
) -> torch.Tensor:
    """
    使用 FGSM 生成非目标对抗样本（Untargeted Attack）

    Args:
        model: 目标模型（需处于 eval 模式）
        x: 原始干净输入，shape [B, C, H, W]，已归一化到 [clip_min, clip_max]
        y: 真实标签，shape [B]
        epsilon: 扰动幅度上限（L∞ 范数约束）
        max_iter: 最大迭代次数（防止无限循环）
        clip_min / clip_max: 输入合法值范围（如图像为 [0,1] 或 [-1,1]）
        device: 运行设备

    Returns:
        x_adv: 对抗样本，与 x 同 shape
    """
    model.eval()
    x_adv = x.clone().detach().to(device)
    x_adv.requires_grad_(True)
    y = y.to(device)

    for i in range(max_iter):
        # 前向传播
        outputs = model(x_adv)
        loss = F.cross_entropy(outputs, y)

        # 若预测已错误，提前退出
        pred = outputs.argmax(dim=1)
        if (pred != y).all():
            break

        # 反向传播计算梯度
        model.zero_grad()
        loss.backward()

        # FGSM: 沿梯度符号方向添加扰动
        with torch.no_grad():
            grad_sign = x_adv.grad.sign()
            x_adv += epsilon * grad_sign

            # 投影回原始样本的 epsilon 邻域，并裁剪到合法范围
            x_adv = torch.clamp(x_adv, min=x - epsilon, max=x + epsilon)
            x_adv = torch.clamp(x_adv, min=clip_min, max=clip_max)

        # 清除梯度
        x_adv.grad = None

    return x_adv.detach()
```**算法 1：对抗样本生成**
**输入**：
1. 模型 mm 及其参数 θθ
2. 原始输入 xx
3. 真实标签 yy
4. 损失函数 J(θ,x,y)J(θ,x,y)
5. 扰动幅度上限 ϵϵ

**输出**： 6. 对抗样本 xadvxadv
**步骤**： 7. 初始化 xadv←xxadv←x 8. **重复以下步骤**： 9. 计算损失对输入的梯度： 10. gradient←∇xJ(θ,xadv,y)gradient←∇xJ(θ,xadv,y) 11. 生成对抗扰动（按梯度方向缩放）： 12. perturbation←ϵ⋅normalize(gradient)perturbation←ϵ⋅normalize(gradient) 13. 更新对抗样本： 14. xadv←xadv+perturbationxadv←xadv+perturbation 15. 将 xadvxadv 的值裁剪至合法范围（如 [0,1] 或 [−1,1]） 16. **直到** 模型对 xadvxadv 的预测结果 ≠ yy 17. 返回最终的对抗样本 xadvxadv
```

def text_fgsm_attack(model, tokenizer, input_text, label, epsilon=1.0):
    inputs = tokenizer(input_text, return_tensors="pt")
    embeddings = model.get_input_embeddings()(inputs.input_ids)
    embeddings.requires_grad = True
    
    loss = compute_loss(model, embeddings, label)
    loss.backward()
    
    # 在 embedding 空间加扰动
    perturbed_emb = embeddings + epsilon * embeddings.grad.sign()
    
    # 将扰动后的 embedding 投影回最近的词（需最近邻搜索）
    perturbed_ids = find_closest_tokens(perturbed_emb, tokenizer, model)
    return tokenizer.decode(perturbed_ids)
``` 总结:
大语言模型（LLM）在推动人工智能能力边界的同时，也暴露出复杂而深远的安全隐患。本文系统梳理了对抗攻击如何作为“探针”，揭示 LLM 在架构设计、训练范式、对齐机制及系统集成等多个层面的脆弱性。研究表明，攻击者可通过精心构造的提示、污染的上下文、多模态输入或外部工具链，在白盒、黑盒甚至灰盒条件下，有效绕过安全对齐机制，诱导模型生成有害内容、泄露隐私信息或执行非预期操作

大型语言模型（LLM）正革新并颠覆人类多个领域，其影响尚处于初步探索阶段。这类模型在规模与能力上高速迭代，架构及应用持续拓展，集成单LLM或多LLM代理的新型系统也不断涌现，逐步融入复杂且相互依赖的技术生态。因此，明确LLM的安全属性，对研发安全稳健的LLM系统至关重要。本文旨在梳理并分类LLM对抗性攻击构成的各类威胁。对抗性攻击是机器学习领域已知的威胁向量。攻击者通过精心构造输入，驱使模型产生可预测的错误输出以谋取利益，这类输入扰动往往极其细微，几乎无法被人类察觉。攻击按目标可分为针对性攻击（将输出篡改为特定内容）与无针对性攻击（仅诱导模型出错），同时也因攻击者对模型内部结构的访问权限不同而存在差异。传统机器学习模型中，对抗性攻击的防御极具挑战性。虽已提出多种防御方案，但对新型攻击的适应性与效果均较为有限。将对抗性攻击延伸至LLM语境存在诸多独特挑战。LLM作为高自由度的复杂模型，具备规模庞大、生成式输出、语境持续、多模态融合等特征，且正深度融入复杂生态系统。这些特性使对抗性攻击的威胁呈现形式发生变化，需通过细致分析明确威胁模型，为构建系统性防御策略提供支撑。

揭开大语言模型的脆弱面：对抗攻击研究综述（一）

大型语言模型（LLM）正革新并颠覆人类多个领域，其影响尚处于初步探索阶段。这类模型在规模与能力上高速迭代，架构及应用持续拓展，集成单LLM或多LLM代理的新型系统也不断涌现，逐步融入复杂且相互依赖的技术生态。因此，明确LLM的安全属性，对研发安全稳健的LLM系统至关重要。本文旨在梳理并分类LLM对抗性攻击构成的各类威胁。对抗性攻击是机器学习领域已知的威胁向量。攻击者通过精心构造输入，驱使模型产生可

安全工程师

人工智能

大型语言模型(LLM)面临对抗性攻击威胁，包括提示注入、上下文污染等攻击方式。攻击者可利用文本、代码或多模态输入，通过白盒、黑盒或灰盒攻击手段诱导模型产生有害输出、泄露隐私或执行非预期操作。研究揭示了LLM在架构设计、训练范式和安全对齐机制等方面的脆弱性。

自然语言处理

机器学习

深度学习

强化学习

自动驾驶

智能体

GitHub

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

揭开大语言模型的脆弱面：对抗攻击研究综述（一）-腾讯云开发者社区-腾讯云

揭开大语言模型的脆弱面：对抗攻击研究综述（一）

揭开大语言模型的脆弱面：对抗攻击研究综述（一）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐