ICML 2025

更新时间：2025-08-17 19:35:31 发布时间：33天前浏览：7097 评论：0

内容摘要本文的第一作者Yu Wang来自加州大学圣地亚哥分校，主要研究方向为Memory for LLMs and Memory for LLM Agents. 该论文于2024年在MIT-IBM Waston Lab实习过程中完成，通讯作者Zex

联系电话：400-962-3929

本文的第一作者Yu Wang来自加州大学圣地亚哥分校，主要研究方向为Memory for LLMs and Memory for LLM Agents. 该论文于2024年在MIT-IBM Waston Lab实习过程中完成，通讯作者Zexue He也毕业于加州大学圣地亚哥分校。

M+ 是在 MemoryLLM 之上提出的长期隐空间记忆扩展框架：通过把「过期」隐藏向量写入 CPU - 侧长期记忆池，再用协同检索器拉回最相关记忆，它将 8 B 级模型的有效记忆跨度从原本不到 20 k tokens 提升到 160 k tokens 以上，同时显存占用保持不变。

论文标题：M+: Extending MemoryLLM with Scalable Long-Term Memory

论文链接：abs/2502.00592

代码仓库：wangyu-ustc/MemoryLLM

开源模型：YuWangX/mplus-8b

背景：上下文 ≠ 记忆现有记忆模型的缺陷

上下文窗口并不能直接等价于记忆。 GPT-4.1 之类的模型即便支持 100 万 token，也会随窗口线性升高显存与延迟，难以落地本地部署。

业界主流做法是 “Token-Level Memory”：把历史内容或三元组存在数据库 / 向量库，检索后再拼接回 prompt；MemGPT 等系统即属此类。该类做法不需要重复训练，直接结合 GPT-4 这样的大模型便可以获得很不错的性能，但是，它也会有一些随之而来的问题：(1) 冗余：原始文本并非最紧凑表达，重复率高。(2) 冲突难解：遇到相互矛盾或不断更新的信息时，文本级冲突消解复杂。(3) 多模态能力弱：由于数据库格式为文本，处理音频或者图片，视频数据将相对困难。

因此，我们希望探索隐空间 (Latent-Space) 的 Memory -- 既压缩又可端到端训练，更接近人类在神经激活中存储信息的方式。

M + 的关键改进：Long-Term Memory

在 MemoryLLM 中，我们为 8B 的 Llama3 模型引入了约 1.67B 的 Memory。Llama3-8B 的 Transformer 共包含 32 层。当第一层接收到词输入后，会通过 Embedding 层将词转化为一系列 4096 维的向量。基于这一特点，我们设计了 MemoryLLM，在每一层都加入 N 个 Memory Tokens（实验中 N=12800）。在生成过程中，这些 Memory Tokens 会作为每一层的 Prefix，通过 Cross-Attention 将信息注入后续层，使模型能 “看到” 保存在 Memory Pool 中的历史信息。

在更新阶段，我们会将每层 Memory Token 中最后 K 个（实验中 K=256）与需要写入的信息一同送入 Transformer，再次经过 Cross-Attention，将信息压入新的 Memory Tokens 中（如下图所示）。与此同时，我们在原有 Memory 中随机丢弃 K 个旧 Token，并将新生成的 K 个 Token 放到 Memory 尾部，完成更新。

基于这样的设计，借助每层 12800 个 Memory Vectors，我们在 50k tokens 内都能保持良好的信息留存（最早 MemoryLLM-7B 版本只做到 20k，后续在 GitHub 提供的新版模型 wangyu-ustc/MemoryLLM 可达 50k）。然而，这样的记忆容量仍无法满足我们对更长序列的期待。要进一步扩展 Memory，单靠原有的 1.67B 容量已远远不够，因此我们提出了 Long-Term Memory。

如何高效实现 Long-Term Memory？考虑到 MemoryLLM 中每一个 Memory Token 本质上都来自 Hidden States，我们将那些在更新过程中被 “丢弃” 的 Memory Token 并非直接舍弃，而是将其保存在长期记忆池中（如下图）。

仅仅保存是不够的，我们还需要具备强大的提取能力。最初我们尝试用 Attention 来从长期记忆中检索 Hidden States，但实验表明 Attention 在提取 Hidden States 时效果有限（在论文的消融实验中做了详尽对比）。因此我们提出协同提取器（Co-trained Retriever），并与全模型进行联合训练（如下图）。

通过这一结构，我们将模型的有效记忆跨度从 50k 一举提升到 160k，且由于 Memory 主要驻留在 CPU，不会显著增加 GPU 负担。

M + 的实验结果

显著性能提升及更少的 GPU 使用：在 Longbook-QA 和 Longbook-Event-QA 两个数据集上，我们都在更少 GPU 的使用下（单卡 18GB 左右）获得了更强大的性能。

更强的信息留存能力：在 SQuAD 数据集上表现出远超 MemoryLLM-7B 以及相关 ablation baseline 的信息留存能力，可以达到 160k 依旧不完全遗忘过去的信息。

结语

M+ 展示了我们在探索隐空间长期记忆领域的重要进展，也为下一代具备持续记忆能力的语言模型提供了坚实的技术支撑。未来，我们将继续研究更高效的存储机制、更智能的检索策略，以及与多模态输入更自然融合的隐空间记忆架构。在此方向上，M+ 不仅是对 MemoryLLM 的一次扩展，也是我们对 “让模型拥有接近人类记忆能力” 这一愿景的又一次有力实践。

举报收藏打赏 评论 0

版权声明 本文仅代表作者观点，不代表本站立场。
如遇本文系为网络转载到本站发表，图片或文章有版权问题的请联系客服确认后会立即删除文章。
如遇本文系作者授权本站发表，未经许可，不得转载。

--结束END--

有问题投稿请发送至: 邮箱/

本文标题: ICML 2025

本文链接: http://dt8.cnhhw.cn/news/show-609671.html (转载时请保留)

0 条

康佳空调全国统一售后24小时受理客服中心‌（完美资讯）（实时传达）

hzcrkf ⋅ 1阅读量 ⋅ 0评论 ⋅ 1天前

2025-08-16
小米风管机24小时全国售后热线（完美资讯）（实时传达）

hzcrkf ⋅ 15阅读量 ⋅ 0评论 ⋅ 1天前

2025-08-16
乐声空调24小时售后全国客服受理中心（完美资讯）（实时传达）

tjskytd ⋅ 16阅读量 ⋅ 0评论 ⋅ 1天前

2025-08-16
SIEMENS空调用户售后服务中心（完美资讯）（实时传达）

tjskytd ⋅ 12阅读量 ⋅ 0评论 ⋅ 1天前

2025-08-16
SAMSUNG空调售后服务热线号码-全国各售后号码（完美资讯）（实时传达）

jindinglaye ⋅ 18阅读量 ⋅ 0评论 ⋅ 1天前

2025-08-16
维克维尔空调全国各市售后服务热线号码（完美资讯）（实时传达）

jindinglaye ⋅ 14阅读量 ⋅ 0评论 ⋅ 1天前

2025-08-16
SAMSUNG中央空调售后服务号码—全国统一客服热线（完美资讯）（实时传达）

tjskytd ⋅ 1阅读量 ⋅ 0评论 ⋅ 1天前

2025-08-16
SIEMENS空调售后故障维修客服服务热线是多少（完美资讯）（实时传达）

hzcrkf ⋅ 12阅读量 ⋅ 0评论 ⋅ 1天前

2025-08-16
将军空调售后维修号码-人工售后号码（完美资讯）（实时传达）

jindinglaye ⋅ 2阅读量 ⋅ 0评论 ⋅ 1天前

2025-08-16
奥克斯AUX空调400服务号码全国售后的热线（完美资讯）（实时传达）

tzkczyk ⋅ 4阅读量 ⋅ 0评论 ⋅ 1天前

2025-08-16

张昌任

去ta空间

24小时热闻

今日推荐

浙ICP备19001410号-1

免责声明

本网站（以下简称“本站”）提供的内容来源于互联网收集或转载，仅供用户参考，不代表本站立场。本站不对内容的准确性、真实性或合法性承担责任。我们致力于保护知识产权，尊重所有合法权益，但由于互联网内容的开放性，本站无法核实所有资料，请用户自行判断其可靠性。

如您认为本站内容侵犯您的合法权益，请通过电子邮件与我们联系：675867094@qq.com。请提供相关证明材料，以便核实处理。收到投诉后，我们将尽快审查并在必要时采取适当措施（包括但不限于删除侵权内容）。本站内容均为互联网整理汇编，观点仅供参考，本站不承担任何责任。请谨慎决策，如发现涉嫌侵权或违法内容，请及时联系我们，核实后本站将立即处理。感谢您的理解与配合。

合作联系方式

如有合作或其他相关事宜，欢迎通过以下方式与我们联系：

电子邮件：675867094@qq.com
联系电话：400-962-3929