
新智元报道
目前的AI代理通常会保留长交互历史记录,但这些记录往往难以高效利用。最直接的方法是从原始记忆中检索信息,然而这种方法往往会淹没模型于冗长且价值较低的上下文中。PlugMem则将经验转化为结构化且可复用的知识,并提出一种任务无关的统一记忆模块,通过在多种代理基准上的应用来提升性能,并且消耗更少资源。
随着AI代理承担的任务越来越复杂,比如长对话、多步推理和交互式网页导航等,它们需要记住并利用过去的经历。
现有的大多数记忆系统更像日志文件,不断积累原始交互记录,需要时再从中抽取相关文本片段。长时间积累后,记忆量会无限增长,噪声增多,并迅速占据代理的上下文空间。
这就产生了一个悖论:尽管AI代理具有前所未有的记忆量,但它们仍然难以有效利用这些记忆。实际上,对决策真正重要的,往往是从交互记录中提炼出的知识,而非完整的交互记录本身。
例如,在进行商品推荐时,代理应记住用户的偏好,而不是反复阅读长对话;在新网站购物时,代理需要掌握搜索、筛选和下单的通用策略,而不是重复浏览每个页面。
AI代理记忆问题的核心挑战在于如何以有效突出决策相关信息的方式组织记忆,而非单纯存储更多记忆。
UIUC和清华大学最近提出了一种新的AI代理记忆方法,PlugMem,这是一种任务无关且即插即用的记忆模块,能够将智能体的原始经验转化为可复用的知识。PlugMem不依赖于检索长文本片段,而是借鉴认知科学,将经验结构化为以知识为中心的表示。

论文地址:https://arxiv.org/abs/2603.03296
代码地址:https://github.com/TIMAN-group/PlugMem
认知科学通常将记忆分为三类:对事件的回忆、对事实的知识以及对技能或策略的掌握。事件提供背景,但有效的决策依赖于从事件中抽象出的事实和技能。这一视角促使我们重新审视AI代理的记忆设计。
PlugMem能够将对话、文档、网页轨迹等异构交互记录转化为结构化的知识单元,这些单元更紧凑、更可复用,并且与决策直接相关。
PlugMem包含三个核心组件:
- 结构化(Structuring):将原始情景经验标准化,并提取为两类知识:命题式知识(facts)与处方式知识(skills、可复用技能/策略)。这些知识单元被组织为结构化的记忆图。
- 检索(Retrieval):不再检索冗长文本块,而是检索与当前任务语义对齐的知识单元。高层概念与意图(concepts / intents)作为「路由信号」,帮助快速定位最相关的内容。
- 推理(Reasoning):把检索到的知识进一步压缩为简洁、可直接用于当前任务的指引,再交给AI代理使用,从而更高效地利用上下文。

PlugMem将异构智能体经验组织为知识中心的记忆图,实现结构化检索与推理。
PlugMem与传统GraphRAG系统的关键区别在于「记忆访问单元」。传统方法通常索引文本块或实体;PlugMem则以知识单元(命题与处方)作为基本构件。这种设计减少了冗余、提高了信息密度,并提高了检索精度。
一个能够跨任务迁移的记忆模块
很多记忆系统往往为特定基准精心定制,例如对话记忆、知识密集问答或网页智能体等。这类任务特定的记忆模块在单一场景中可能表现出色,但换任务时通常需要重新设计。
PlugMem采取了一种不同的方法:作为一个即插即用的通用记忆框架,它可以无缝地连接到不同AI代理上,无需针对任务进行专门修改。文中使用同一个模块、保持实现不变,在三个异构基准上进行了测试:长程对话式问答、基于维基百科的多跳知识检索、交互式网页决策任务。
结果显示:PlugMem在三种设置下都稳定提升了任务表现,超过了通用检索方法和多种任务特定记忆设计。更重要的是,这些提升是在向AI代理注入显著更少记忆单元的前提下实现的。
用「效用」衡量记忆
而不是用「大小」
单纯看任务准确率并不能全面反映记忆系统的关键能力,即记忆模块必须在「决策效用」和「上下文成本」之间权衡。
因此,PlugMem提出了一种信息论指标,用来度量记忆系统每消耗一个单元,能带来多少「决策相关的信息增益」。直观地说,记忆模块产生的单元能让AI代理对正确行动更有把握多少?接着再按记忆长度做归一化。
在效用–成本空间里,PlugMem稳定处于更有优势的位置:以更低的单元成本获得更高的决策效用。

在多种基准上,PlugMem在更小的记忆预算下提供更高的决策相关效用。
这些结果支持一个结论:把经验转化为知识,比直接检索原始日志更紧凑、更有信息量。
超过任务特定设计
初看之下,一个任务无关的记忆模块能超过为某个基准量身定制的方法似乎有些反直觉。然而,PlugMem的结果表明,决定性因素往往不是特定基准的启发式技巧,而是对「决策相关知识抽取」的有效检索。
无检索,记忆只是静态存储;无结构化知识,检索就缺乏精度。PlugMem将以下三件事拆开并协同:结构化决定「可被检索的内容是什么」,检索决定「记忆是否真的能帮助决策」,推理/压缩确保「以更低成本被AI智能体利用」。
PlugMem也不试图取代任务特定技巧。它更像一个通用记忆底座,上层依然可以叠加任务适配。实验也显示:在PlugMem之上再加入任务特定启发式探索方法,往往还能进一步提升效果,二者具有互补性。
走向智能体的「可复用知识基础设施」
当AI代理迈向更长程的自主能力,记忆需要从被动存储走向成为主动的知识基础设施:代理应当积累可迁移的事实与策略,让知识跨任务、跨环境复用,缓解AI代理冷启动问题,并支持更强的泛化。
PlugMem是朝这个方向迈出的一步。它以认知科学为设计启发,将「知识」作为复用的基本单位,展示了任务无关记忆在效率与能力上的可行性。
更广义地看,这项工作提示了一个视角转变:与其追求检索更多上下文,不如追求把经验表示成天然可复用的形式。随着智能体能力扩展,可扩展、可迁移的记忆系统将成为基础设施;知识中心的记忆很可能是下一代智能体的重要基石。
参考资料:
https://arxiv.org/abs/2603.03296

