究其原因,是但凡讲到Transformer,铺天盖地的资料上来就直奔自注意力机制(Self-Attention)的Q、K、V细节,只钻枝叶、不谈全局,只见树林,不见森林。
现在我就来尝试使用一个新的视角来解读下Transformer,解决学了好久还是一团浆糊的问题!
Transformer到底是什么?
Transformer是一种深度神经网络架构,2017年由Google提出,核心是基于自注意力机制(Self-Attention)构建的序列建模架构,摒弃传统RNN与CNN,依托多头注意力(Multi-Head Attention)和位置编码(Positional Encoding)实现计算并行化,还能高效捕捉序列中的长距离依赖关系。这一创新的神经网络结构,有效解决了传统序列模型在计算与长距离依赖捕捉上的效率难题,大幅提升了前向传播与特征建模的效率,其实用性已被众多企业和研究机构验证,也由此掀起人工智能发展的全新浪潮。如今,Transformer 架构更是成为大模型时代无可争议的核心基石。
Transformer神经网络只是优化了模型训练和模型推理的一个环节,即前向传播部分。

完整的模型训练流程是这样的:

Transformer=位置编码+自注意力机制(Self-Attention)+前馈网络
结构分为两大块:
整体结构
标准 Transformer 是:
中间通过 Encoder-Decoder Attention 连接

关键模块详解
1. 自注意力机制Self-Attention
Transformer中的注意力机制,本质是一种数据驱动、自适应、全局的动态信息加权聚合方法,本质是通过动态权重分配实现信息选择性聚焦,其核心在于模拟人类认知系统对复杂输入的差异化处理能力。这种机制通过可学习的方式赋予输入特征不同的重要性权重,使模型能够自主决定 “看哪里” 和 “如何看”。
一句话:注意力机制让每个词都能看到句子里所有词,并算出它们的关联程度。
步骤:

1、对每个token生成三个向量:

2、计算Q・K^T,得到注意力分数
3、除以根号 d_k 缩放,避免数值爆炸
4、Softmax归一化,得到权重
5、权重×V来提取特征,得到最终输出
公式:

2.多头注意力Multi-Head Attention
把Q/K/V分成多组,并行计算多个注意力:
让模型能同时捕捉:语法、语义、指代、长距离依赖等。
3. 位置编码 Positional Encoding
Transformer 没有时序结构,不知道词的顺序,所以手动加入位置信息:

4. 残差连接+层归一化
每个子层外面都套:
LayerNorm(x + SubLayer(x))
作用:
四、Encoder 内部结构
每层 Encoder 包含:
五、Decoder 内部结构
每层 Decoder 包含:
为什么Transformer 这么强并行计算
常见变种