搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器之心
新一代注意力机制Lightning Attention-2：无限序列长度、恒定算力开销、更高建模精度
机器之心专栏机器之心编辑部 Lightning Attention-2 是一种新型的线性注意力机制，让长序列的训练和推理成本与 1K 序列长度的一致。作者将 Lightning Attention-2 的整体思路总结为以下三点进行解释： 1. 图 3 Lightning Attention-2 精度对比研究人员首先在小规模（400M）参数模型上对比了 Lightning Attention-2 与 Lightning Attention-1 Lightning Attention-2 速度对比研究人员对 Lightning Attention-2 与 FlashAttention2 进行了单模块速度与显存占用对比。在显存占用上，三者均显示出了类似的趋势，但 Lightning Attention-2 的显存占用更小。
94110编辑于 2024-01-18
来自专栏AI SPPECH
119_LLM训练的高效内存管理与优化技术：从ZeRO到Flash Attention
-2 4.3.1 2025年Flash Attention-2特性 Flash Attention-2是Flash Attention的改进版本，提供了更高的性能和更低的内存消耗：更高的并行度：优化了 GPU线程块协作更高效的内存布局：减少内存占用和访问开销支持更大的批量大小：允许更大的有效批量训练更低的内存峰值：减少训练过程中的内存波动 4.3.2 实现示例 # 使用Flash Attention -2，速度最快中长序列(1K-10K tokens)：Flash Attention-2 + 分块处理长序列(10K-100K tokens)：Longformer-2025或BigBird-GS 8.2.2 具体优化措施内存优化： ZeRO-3优化器梯度检查点 (所有Transformer层) 动态批量大小激活值重计算优化计算优化： Flash Attention-2 融合操作优化替换注意力机制 for i, layer in enumerate(model.gpt_neox.layers): # 替换为Flash Attention-2
40910编辑于 2025-11-16
来自专栏Android-JessYan
MVPArms官方首发一键生成组件化,体验纯傻瓜式组件化开发
attention-2 ---- Hello 我叫Jessyan,如果您喜欢我的文章,可以在以下平台关注我 GitHub: https://github.com/JessYanCoding
86830发布于 2018-09-13
来自专栏机器之心
RNNsearch、Multi-task、attention-model...你都掌握了吗？一文总结机器翻译必备经典模型（一）
Convolutional Encoder Model for Neural Machine Translation Attention https://sota.jiqizhixin.com/project/attention 模型平台获取实现资源：https://sota.jiqizhixin.com/project/attention-2 Value-network Value-network的思路是：使用预测网络来改进波束搜索
66620编辑于 2023-03-29
模型量化与量化在LLM中的应用｜得物技术
总体来说，LLM领域的量化工作还很初步，若在实际任务中对模型的表现精度要求十分高，更推荐单纯基于KV cache等方向提高单位显存吞吐量的算法和工具，如Flash Attention-2、Paged Attention
2K10编辑于 2024-06-12
来自专栏GiantPandaCV
【BBuf的CUDA笔记】十三，OpenAI Triton 入门笔记一
大模型推理框架lightllm，diffusion第三方加速库stable-fast等灯，以及很多mlsys的paper也开始使用Triton来实现比如最近刚报道的这个新一代注意力机制Lightning Attention
4.3K10编辑于 2024-01-23
来自专栏信数据得永生
Transformers 4.37 中文文档（四十五）
Flash Attention-2 模型还使用了更高效的内存缓存切片机制-根据 Mistral 模型的官方实现建议，使用滚动缓存机制，我们保持缓存大小固定（self.config.sliding_window Flash Attention-2 模型还使用了一种更节省内存的缓存切片机制 - 正如 Mistral 模型的官方实现建议的那样，我们保持缓存大小固定（self.config.sliding_window
70110编辑于 2024-06-26

新一代注意力机制Lightning Attention-2：无限序列长度、恒定算力开销、更高建模精度

119_LLM训练的高效内存管理与优化技术：从ZeRO到Flash Attention

MVPArms官方首发一键生成组件化,体验纯傻瓜式组件化开发

RNNsearch、Multi-task、attention-model...你都掌握了吗？一文总结机器翻译必备经典模型（一）

模型量化与量化在LLM中的应用｜得物技术

【BBuf的CUDA笔记】十三，OpenAI Triton 入门笔记一

Transformers 4.37 中文文档（四十五）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

​新一代注意力机制Lightning Attention-2：无限序列长度、恒定算力开销、更高建模精度

119_LLM训练的高效内存管理与优化技术：从ZeRO到Flash Attention

MVPArms官方首发一键生成组件化,体验纯傻瓜式组件化开发

RNNsearch、Multi-task、attention-model...你都掌握了吗？一文总结机器翻译必备经典模型（一）

模型量化与量化在LLM中的应用 ｜ 得物技术

【BBuf的CUDA笔记】十三，OpenAI Triton 入门笔记一

Transformers 4.37 中文文档（四十五）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

新一代注意力机制Lightning Attention-2：无限序列长度、恒定算力开销、更高建模精度

模型量化与量化在LLM中的应用｜得物技术