长期记忆、短期记忆、遗忘机制及门控机制智能问答系统实现长期记忆、短期记忆、遗忘机制以及门控机制的方法如下: 长期记忆的实现- **使用数据库存储**:将大量的知识、信息和历史交互数据存储在数据库中。 遗忘机制的实现- **设置时间阈值**:为存储的信息设置**时间戳**,当信息的存储时间超过一定阈值时,将其从缓存或长期记忆存储中删除。 对于长期记忆中的信息,如果长时间没有被使用,其活跃度较低,系统可以逐渐降低其权重或在存储空间紧张时将其删除。门控机制及其示例门控机制是一种在智能问答系统中用于控制信息流动和筛选的机制。 以基于循环神经网络(RNN)的门控机制为例:- **门控单元**:如长短期记忆网络(LSTM)中的遗忘门、输入门和输出门。 然后,输出门根据当前的记忆状态生成关于人工智能发展历程的回答输出给用户。Transformer中基于惊喜的遗忘机制是一种根据输入信息的“**惊喜**”程度来决定是否遗忘先前信息的机制。
今天 AI 记忆系统又进了一步:Engram、Claude Code、EdgeClaw 正在把“长期记忆”做成工程能力 最近一波关于 AI Agent 记忆系统的更新,很值得放在一起看。 Engram:把“摄入一次、低成本回忆很多次”做成现实 Engram Memory SDK 是一款面向智能体的开源图记忆开发库,核心思路非常直接: 在摄入阶段调用一次大模型,把实体与关系抽出来;之后回忆阶段不再依赖大模型 这套规则其实非常像一个成熟工程团队的知识管理原则: •主索引只放导航,不放正文 •主题信息按模块拆开 •原始记录保留,但只在需要时检索 •旧知识不是“资产”,很多时候反而是风险 更有意思的是它的 autoDream 机制 在工程实现上,EdgeClaw 2.0 也体现出很强的产品化取向: •记忆存储基于本地数据库,支持跨设备迁移 •内置可视化面板,便于观察和管理 •通过插件与钩子机制接管记忆生命周期 •支持全局安装或一键部署 Claude Code 直接把记忆写进工作流纪律,EdgeClaw 把记忆做成多级组件,Engram 则把记忆抽象成开发基础设施。 2.
这里的核心是上下文感知门控机制,原理很像我们找资料时的相关性判断:把当前模型正在处理的内容当作查询需求,把检索到的记忆向量当作“资料”,计算两者的相似度,生成一个 0 到 1 之间的“门控值”——相似度越高 Engram把局部依赖的处理外包后,注意力机制能专注于捕捉全局上下文的长距离依赖,提升长文本处理能力。 理性探讨:真实场景的挑战与优化空间 部分网友也对 Engram 提出了三点理性关切:一是面对真实噪声输入的鲁棒性,在错乱文本中哈希检索与门控机制是否可靠;二是静态记忆的动态更新难题,当前固化知识库如何适应快速变化的信息世界 效率优化:功能上等价于增加模型有效深度,释放注意力机制,提升表示效率; 3. 系统突破:确定性寻址实现计算与内存解耦,突破 GPU 内存墙,让万亿级参数的记忆表可低成本部署。 Engram 技术标志着大模型架构设计进入了一个新的里程碑。它通过显式记忆存储与检索机制,解决了传统 Transformer 模型在静态知识处理上的效率问题,实现了"查算分离"的范式革新。
整体的框架流程论文中已经画出来了~如果用一句话概括:MoE解决的是“算得更聪明”(条件计算),Engram解决的是“记得更便宜”(条件记忆)。两者是互补结构。 这一步门控机制很关键:因为哈希天然会有碰撞、多义性,门控相当于让模型在当前上下文里判断这条“记忆”是否可信。 Engram的“门控(gating)”确实学会了:只在“这是一个稳定、固定的局部模式”时才强力介入,而不是对所有token都乱用记忆。 论文给了表征/层级的证据,但机制解释仍有讨论空间通用性:看起来Engram得跟着模型一起训练,短期可能难以“通用外挂”实时更新:理论上“更新表”比LoRA微调更快,但如何保证一致性、如何防止污染、如何做版本管理 目前DeepSeek在走极致化的“稀疏”路线:MoE:计算的稀疏化Engram:存储的稀疏化如果这条路跑通,未来可能出现一种很有代表性的架构形态:小而精的推理核心+可扩展、可更新的超大记忆库。
3.2Engram(条件记忆)模块:根治“幻觉魔咒”这是DeepSeek团队于2026年初提出的革命性创新,旨在解决大模型“记不住硬核知识”的根本问题。 工作流程:在推理时,模型首先通过其神经网络进行动态推理,同时并行地查询Engram记忆库。如果查询命中,就直接使用精确的事实;如果未命中,则依赖神经网络的泛化能力。 一种新的稀疏维度:Engram被视为继MoE之后,大模型稀疏化的“新轴心”,为模型轻量化和持续学习提供了新路径。Engram的技术细节与创新Engram模块的设计灵感来源于人类大脑的记忆机制。 研究发现,MoE与Engram之间存在一条“U形scalinglaw”,意味着未来需要在计算与静态记忆之间找到最优资源配比。这个思路可能成为稀疏架构的下一条主流路线。 它通过将MoE的规模、Engram的记忆、mHC的稳定、DSA的效率四者有机结合,成功构建了一个既能“装得下”海量知识,又能“跑得快”且“用得起”的新一代大模型。
它的灵感来自认知科学中的"印迹记忆"(Engram)概念——人类大脑中存储特定记忆痕迹的神经元集群。 Engram的思路是:在Transformer之外,给模型加一个独立的"记忆模块",通过高效的查找机制直接定位到需要的知识。Engram的底层是对经典N-gram模型的现代化改造。 整个过程的时间复杂度是O(1)——不管你的记忆表有多大,查找速度都是恒定的。forward方法展示了Engram如何与Transformer集成。它不是替代注意力机制,而是作为一个"旁路"补充。 记忆输出通过一个门控机制与Transformer的隐藏状态融合。门控值由模型自己学习——如果当前任务不需要外部记忆,门控值趋近于0,Engram的影响可以被自动忽略。 Engram则把一部分"记忆"职责从注意力机制转移到了O(1)查找表,进一步减轻了长序列推理时KVCache膨胀带来的性能瓶颈。两者叠加,上下文处理效率提升显著。
V4的三大技术突破,分别针对当前大模型面临的三大核心挑战:幻觉魔咒(HallucinationCurse):事实性错误频发→Engram条件记忆。 第二章:第一大突破——Engram条件记忆模块:根治“幻觉”的活字典外挂2.1问题根源:为什么传统模型会“胡说八道”?传统Transformer模型将所有知识都内化于其数十亿甚至万亿的权重参数之中。 2.2Engram的设计哲学:为大模型装上“海马体”Engram模块的设计灵感直接来源于人类大脑的海马体(Hippocampus),后者负责快速、精准地检索长期记忆中的事实性知识。 Engram旨在为大模型提供一个独立的、外部的、可即时访问的“活字典”,实现条件记忆(ConditionalMemory)。 结论DeepSeek-V4的三大技术突破——Engram条件记忆、mHC流形约束超连接和DSA稀疏注意力——共同构成了一场深刻的架构革命。
https://ieeexplore.ieee.org/abstract/document/10547422 内容整理:唐安妮 本文是上海交大媒体实验室与微软研究院深度和强化学习组的合作论文, 研究了记忆机制如何提升 对于从输入中派生的查询,我们通过使用相似性函数计算与键集合之间的匹配分数,然后通过和之间的相似性关系来关联中的不同值: 其中,和表示与记忆机制相关的模型参数。 因此,从实验部分呈现的消融实验结果可以看出,记忆机制的引入有效地缓解了前述两种类型的一对多映射问题。 什么是所谓的“缺失信息”? 表4 显式记忆的消融实验结果 在理论层面上,memory机制的有效性可能归因于其改变信息获取方式的能力(即检索而不是预测)。这证明,当预测具有挑战性时,检索可能是一种更直接有效的信息获取方式。 从后续会上传的demo视频可以观察到,没有引入记忆机制的基线方法在适应新的说话方式时,口型质量的准确性明显下降,这可能是由于对有限数据的过拟合。
114个文件中有28处提到MODEL1 与现有的DeepSeek-V3.2(V32)作为不同的模型架构出现 关键技术突破 统一回归512标准维度:优化了模型的核心参数配置 首创"值向量位置感知":在注意力机制上的重要创新 引入Engram机制:条件记忆通过可扩展查找实现,解决Transformer缺乏原生查表记忆的缺陷 DSA(DeepSeek Sparse Attention)机制:实现显存效率与推理精度的双重跨越 缓存布局优化 稀疏性处理改进 FP8解码优化 技术架构对比 特性 MODEL1 V3.2 架构类型 全新架构 现有架构 硬件支持 SM90 + SM100 主要SM90 核心创新 值向量位置感知 + Engram 传统MLA 内存优化 FP8 + 稀疏处理 标准优化 性能优势 MODEL1通过引入Engram机制,实现了: O(1)查表取向量:让模型直接获取知识而非逐层计算 条件记忆机制:将20-25%参数用于记忆存储
其核心创新在于一套名为“双轴稀疏架构”的系统性设计,该架构由两大引擎驱动:“Engram条件记忆引擎”与“MoE混合专家计算引擎”。 这种“记忆+专家”的双引擎模式,首次在大模型中实现了人类认知机制般的“海马体-皮层”分离,将静态知识的存储与动态逻辑的推理解耦。 DeepSeek-V4的“双引擎”架构正是对这一生物机制的工程化复现:Engram条件记忆引擎≈海马体:高效、无损地存储和检索静态知识。MoE混合专家计算引擎≈新皮层:动态、灵活地处理复杂的推理任务。 第二章:第一引擎——Engram条件记忆:为大模型装上“海马体”2.1设计动机:为什么需要一个独立的记忆模块?在传统模型中,所有知识都内化于神经网络的权重之中。当用户询问“巴黎是哪个国家的首都?” DSA预处理:整个1MToken(包括原始上下文和Engram注入的内容)被DSA的压缩机制处理,生成一个精简的“超级条目”列表。
“论文中的这一成果及其他研究结果为记忆的巩固提供了一个全面的神经回路机制。”本研究的高级作者 Susumu Tonegawa 表示。 此前大多数关于记忆的研究都是基于分析特定大脑区域的损伤是如何影响记忆的。然而,在2012年,Tonegawa 的实验室研发了一种标记 engram (记忆痕迹)细胞的方法,这种细胞包含记忆的痕迹。 研究人员标记了大脑三个区域的记忆细胞:海马体、前额叶皮层和存储记忆中情绪联系的基底外侧杏仁核。 研究人员在恐惧反应实验发生后一天,发现事件的记忆被存储在海马体和前额叶皮层的 engram 细胞中。 在这一时期结束时,海马体的 engram 细胞变得沉默,在自然回忆中不再需要。然而,记忆的痕迹仍然存在:用光还原这些细胞仍然会促使动物保持不动。 在基底外侧杏仁核中,一旦形成记忆,engram 细胞会在整个实验过程中保持不变。这些细胞,是唤起与特定记忆相关的情绪所必需的,它们会与海马体和前额叶皮层中的 engram 细胞进行通信。
第二轴:Engram-条件记忆:负责高效、精准地存储和检索静态的、确定性的事实知识。 这种“查表(Lookup)”的设计思想,直接借鉴了人类大脑的认知机制——海马体负责快速检索长期记忆,而前额叶皮层负责复杂的思考。通过将这两个功能解耦,V4实现了前所未有的效率和准确性。 3.1Engram条件记忆模块:打造大模型的“活字典外挂”3.1.1设计动机传统模型将所有知识都编码在神经网络的权重中。 ),Engram模块的核心是一个可扩展的哈希查找表。 必须设计一种能线性或近似线性扩展的注意力机制。
2.4Engram记忆架构Engram记忆架构是DeepSeekV4在长上下文处理方面的另一项重要创新。 该架构借鉴了神经科学中“记忆痕迹”(Engram)的概念,通过以下机制增强模型的记忆能力:记忆单元:在Transformer层之间插入专门的记忆单元,用于存储和检索长期依赖信息;记忆更新:采用可学习的更新规则 5.3.2智能体开发Agent框架:支持复杂的智能体开发,具备优秀的规划和执行能力;多工具集成:能够调用外部工具和API,扩展功能边界;长期记忆:通过Engram架构实现长期记忆和经验积累。 避免专家偏斜问题;更强的记忆能力:增强Engram架构,实现更长期、更可靠的记忆存储。 其创新的MoE架构、双轴稀疏设计、混合注意力机制、Engram记忆架构等技术突破,不仅解决了超大规模模型的效率问题,更在长上下文处理、推理性能、成本控制等方面实现了全面领先。
窗口只是表象,真正藏在更新里的,是mHC流形约束与Engram条件记忆两项底层架构落地。” 业内猜测,这次模型的更新,应该把之前论文提到的两项核心底层技术:mHC(流形约束超连接)与 Engram (条件记忆模块)也应用在新模型上了,只是没有公布出来。 03 — 条件记忆模块(Engram) 核心定义: Engram 是 DeepSeek 提出的“条件记忆”技术,核心目标是为大模型植入类似人类的“深层速记能力”。 训练策略:分阶段扩展上下文 仅有新的注意力机制还不够,模型的训练过程也需要同步调整。 渐进式扩展: “分阶段扩展策略”(Phased Extension Strategy)。 Engram 关注的是“如何让模型想得更省力”,通过记忆检索解决算力浪费和显存限制。
论文提出了一个叫 Engram 的条件记忆模块:把经典 N-gram 做成现代化的 O(1) 查表记忆外挂,用确定性哈希在巨大表里秒级定位向量,再通过门控把“记忆向量”注入 Transformer 主干 一句话翻译: 大模型终于有了“物理外挂海马体”——记忆与计算开始解耦。 这不是一个小技巧,这是一个方向:LLM 的稀疏性不止 MoE 的“算得少”,还可以是 Engram 的“记得快”。 1)把 N-gram 从垃圾堆里捡回来,做成“可扩展的条件记忆” Engram 的思想很“复古”:N-gram。 3)存储稀疏:比 MoE 更彻底的“只读我需要的记忆” MoE 是“只算部分专家”,仍然需要路由与激活管理。 Engram 是“只读少量记忆”,并且通过确定性地址减少路由负担。 这就是 Engram 的长期主义: 它没有用更贵的算力去压缩问题,而是用更朴素的结构把问题拆开——让“计算”去做计算,让“记忆”去做记忆。
为解决这一问题,研究人员开发了一种名为“HippoRAG”的新框架,模仿了大脑新皮质和海马体的工作机制,显著提升了多跳问题解答的性能,比现有 RAG 方法高出 20%。 然而人类则能通过联想记忆迅速联想到这两点。这就是 HippoRAG 的灵感来源。 1. 海马记忆索引理论 海马记忆索引理论[3]描述了人类长期记忆的工作机制,涉及三个区域: 新皮质[4] 副海马区(PHR)[5] 海马体[6] 它们协同完成两大功能: 模式分离:将不同经历存储为不同记忆 模式补全 HippoRAG HippoRAG 模仿了这一记忆流程,分为两个阶段: 离线索引,相当于记忆编码 在线检索,相当于记忆检索 2.1 离线索引 此阶段模仿大脑编码记忆的方式,使用 LLM 提取知识图谱三元组 它的创新在于检索机制,先获取查询语句中的实体,然后在使用 Personalized PageRank 来优先检索相关的路径,最后给出结果。简单讲,感觉就是使用 PPR 来对子图查询排序。
这一可冻结混沌阶段提供了一种新的突触工作记忆机制,其中神经元动力学的稳定固定点通过突触动力学不断不稳 定,从而通过停止突触可塑性将任何神经元状态存储为稳定固定点。 除了它在工作记忆中的潜在作用之外,可冻结混沌还提供了一种机制来保持 动态神经元状态的运行副本,该副本可以,如果电路功能中断,则保存并随后恢复。 突触可塑性长期以来一直在学习和记忆的背景下进行研究,但其在网络动力学和计算中的作用却鲜为人知。 因此,我们的工作为正在进行的赫布可塑性机制的实验研究提供了额外的理论动力。 机器学习模型反映了突触纯粹用于塑造神经元动力学的观点。在这些系统中,权重参数通过梯度下降进行训练,然后固定。 特别是,与基于活动的工作记忆相比,长期时间依赖性更容易存储在突触工作记忆中。对于实际应用,递归网络在很大程度上已被Transformer[24]取代。
二、核心技术解密:双轴稀疏架构的范式革命DeepSeek-V4 的强大并非凭空而来,其背后是两大开创性技术的支撑:Engram 条件记忆模块 和 MoE(Mixture of Experts)条件计算。 这两者共同构成了其“记忆-计算分离”的双轴稀疏架构,这是对传统大模型设计的一次根本性颠覆。1. Engram 条件记忆:给AI配一本“超级活字典”想象一下,让一个学生去参加一场开卷考试。 他不需要把所有知识都死记硬背在脑子里(参数),只需要在遇到确定性问题时,快速翻阅手边的参考书(外部记忆)即可。Engram 模块正是扮演了这本“超级活字典”的角色。 MoE + MHC:打造稳定高效的“专家团队”如果说 Engram 解决了“记忆”问题,那么 MoE(混合专家)架构则解决了“计算”问题。 DSA/NSA 稀疏注意力:让百万上下文成为可能处理百万Token的上下文,最大的挑战在于 注意力机制 的计算复杂度。
它解决的是:参数规模 ≠ 计算量必须线性增长但 DeepSeek 的观察更进一步:即便在 MoE 中,用“专家网络”去记忆固定模式,仍然是一种浪费。于是 Engram 出现了。 二、Engram 在做什么?一句话:该查的,别算“Engram” 是神经科学中的术语,意为 记忆痕迹。在这篇论文里,它被实现为一个可扩展、可学习、可条件触发的记忆模块。 不管这个表里存了多少“记忆”,一次检索的成本几乎不变。这意味着什么?模型可以用极低的算力,调用海量“已知模式”。 MoE 的稀疏性,是:条件计算只激活少量专家网络Engram 的稀疏性,是:条件查找只命中极少量记忆条目两者解决的是不同问题。 如果说 V2 / V3 的关键词是 MoE 扩展效率, 那么 Engram 暗示的,是下一阶段的主题:记忆与推理的结构性分离。
该架构包含三大核心技术支柱:Engram条件记忆、mHC流形约束超连接和DSA稀疏注意力。它们共同作用,实现了“记忆”与“计算”的分离,从根本上解决了传统模型的效率瓶颈。 2.1Engram条件记忆:为大模型装上“活字典外挂”2.1.1设计哲学:记忆与计算分离传统Transformer模型将所有知识都编码在神经网络的权重中。 Engram模块的设计灵感来源于人类大脑——我们拥有一个专门用于快速检索长期记忆的海马体。Engram正是大模型的“海马体”。 Engram模块利用这个向量,在哈希表中进行近似最近邻(ANN)搜索。闪电般检索:得益于精心设计的哈希算法,检索过程的时间复杂度接近O(1),远快于O(n²)的注意力机制。 缓存机制:对于重复或相似的查询,Engram和KVCache可以被高效复用,实现“缓存命中”,从而将成本降至最低点0.2元。