机器之心专栏 机器之心编辑部 Lightning Attention-2 是一种新型的线性注意力机制,让长序列的训练和推理成本与 1K 序列长度的一致。 作者将 Lightning Attention-2 的整体思路总结为以下三点进行解释: 1. 图 3 Lightning Attention-2 精度对比 研究人员首先在小规模(400M)参数模型上对比了 Lightning Attention-2 与 Lightning Attention-1 Lightning Attention-2 速度对比 研究人员对 Lightning Attention-2 与 FlashAttention2 进行了单模块速度与显存占用对比。 在显存占用上,三者均显示出了类似的趋势,但 Lightning Attention-2 的显存占用更小。
-2 4.3.1 2025年Flash Attention-2特性 Flash Attention-2是Flash Attention的改进版本,提供了更高的性能和更低的内存消耗: 更高的并行度:优化了 GPU线程块协作 更高效的内存布局:减少内存占用和访问开销 支持更大的批量大小:允许更大的有效批量训练 更低的内存峰值:减少训练过程中的内存波动 4.3.2 实现示例 # 使用Flash Attention -2,速度最快 中长序列(1K-10K tokens):Flash Attention-2 + 分块处理 长序列(10K-100K tokens):Longformer-2025或BigBird-GS 8.2.2 具体优化措施 内存优化: ZeRO-3优化器 梯度检查点 (所有Transformer层) 动态批量大小 激活值重计算优化 计算优化: Flash Attention-2 融合操作优化 替换注意力机制 for i, layer in enumerate(model.gpt_neox.layers): # 替换为Flash Attention-2
attention-2 ---- Hello 我叫Jessyan,如果您喜欢我的文章,可以在以下平台关注我 GitHub: https://github.com/JessYanCoding
Convolutional Encoder Model for Neural Machine Translation Attention https://sota.jiqizhixin.com/project/attention 模型平台获取实现资源:https://sota.jiqizhixin.com/project/attention-2 Value-network Value-network的思路是:使用预测网络来改进波束搜索
总体来说,LLM领域的量化工作还很初步,若在实际任务中对模型的表现精度要求十分高,更推荐单纯基于KV cache等方向提高单位显存吞吐量的算法和工具,如Flash Attention-2、Paged Attention
大模型推理框架lightllm,diffusion第三方加速库stable-fast等灯,以及很多mlsys的paper也开始使用Triton来实现比如最近刚报道的这个新一代注意力机制Lightning Attention
Flash Attention-2 模型还使用了更高效的内存缓存切片机制-根据 Mistral 模型的官方实现建议,使用滚动缓存机制,我们保持缓存大小固定(self.config.sliding_window Flash Attention-2 模型还使用了一种更节省内存的缓存切片机制 - 正如 Mistral 模型的官方实现建议的那样,我们保持缓存大小固定(self.config.sliding_window