GateMem:首个『记忆治理』基准,现有方法全部不及格

记忆,正在成为这一年里智能体竞赛最被看重的能力之一——能记住你说过什么、跨会话保持连续,几乎是每个「个人助理」的核心卖点。但一篇当天在 HuggingFace 论文区拿到 18 个 upvote 的工作 GateMem(arXiv 2606.18829)指出:几乎所有现有记忆基准都默认「只有一个用户」,而真实世界里更常见的是医院、公司、校园、家庭这类多人共用同一个助手的场景。在这些场景里,记忆的好坏不只取决于「记得准不准」,更取决于「能不能管好」——谁有权读到哪条、删除请求发出后是不是真的遗忘了。GateMem 把这件事正式立成了一个基准,并给出一个相当扎心的结论:在 7 个记忆方法 × 6 个底座大模型的交叉测试里,没有任何一种组合能同时做到强可用、稳健访问控制与可靠遗忘。

发生了什么

GateMem 的全称是《Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents》(多主体共享记忆智能体的记忆治理基准),论文于 2026 年 6 月 17 日提交到 arXiv(分类 cs.LG / cs.CL,共 24 页、8 张图),作者来自一支以 Zhe Ren、Yibo Yang 等署名、Shuicheng Yan 列于其中的团队。配套的代码库与数据集同步开源:GitHub 仓库 rzhub/GateMem 采用 MIT 协议(当时已有 112 颗 star),数据集托管在 HuggingFace 的 Ray368/GateMem(CC-BY-4.0 协议),并提供项目页、公开排行榜和在线提交入口。

它要解决的问题,论文开篇一句话讲得很清楚:现有的 LLM 记忆基准「大多假设单用户场景,使得面向医院、职场、校园、家庭的共享助手研究不足」。在共享部署里,多个「主体」(principal)向同一个记忆池写入,又以不同的角色、权限范围和关系去查询——这时记忆质量需要的不只是「召回」(recall),还需要「治理」(governance)。

GateMem 把「治理」拆成三件必须同时做到、却互相拉扯的事:

有用性(Utility):对合法、获授权的长程请求,要带着状态更新正确作答;
访问控制(Access Control):跨越不同授权边界时,不能把信息泄露给无权或越权的请求方;
主动遗忘(Active Forgetting):收到明确删除请求后,后续不能再把已删内容重新答出来或拼回来。

关键在于这三者天然冲突:记得越多、答得越全,越有用;但记得越多,越容易在不该说的时候说出来,删除后也越难真正抹干净。GateMem 的全部价值,就是把这种冲突量化出来,逼方法在三个维度上同时交卷。

关键数据 / 基准构成

GateMem 横跨医疗、办公、教育、家庭四个域,每个域由「长对话剧情(episodes)」和「隐藏评测检查点(checkpoints)」两类文件构成。论文给出的总量是 91 段多方长对话与 2218 个隐藏检查点;数据集卡片进一步给出了逐域拆分,四个域的剧情数相加正好是 91,检查点数相加正好是 2218——交叉对得上:

域	长对话剧情数	隐藏检查点数
医疗(medical)	21	579
办公(office)	17	547
教育(education)	30	540
家庭(household)	23	552
合计	91	2218

注:数据集页面显示的 2309 条总行数等于 91 段剧情 + 2218 个检查点,即「剧情行」与「检查点行」之和,与论文口径一致。

评测以「开放标签、离线」的方式进行:每个检查点带有 query_type(utility/privacy/safety)、expected_action(作答 / 脱敏作答 / 拒答 / 无记忆)、judge_spec(评判规范)和 leak_targets(泄露目标)等字段,但这些是留给打分用的隐藏标注,被测方法不允许读取。更有意思的是它枚举的「攻击类型」,把访问控制的失败方式拆得很细——跨学生越权、被委派者越权、权威施压、家长越权、社会工程、拆分重构(把零碎信息拼回被保护的整体)、删除后恢复等。这意味着 GateMem 不是简单问「记不记得」,而是主动构造对抗性的越权与套取场景。

被测对象是 7 个记忆基线 × 6 个底座大模型的交叉。代码库列出的 7 个基线为:Long-Context(长上下文直接喂)、RAG-Naive、RAG-Policy、A-MEM、Mem0、ReMeM-I、ReMeM-S;底座模型则通过 OpenAI、DeepSeek、Gemini、Anthropic、NVIDIA 等多家 API 接入(论文口径为 6 个底座 LLM)。

打分上,GateMem 设计了一个记忆治理综合分(MGS,Memory Governance Score),把三个维度乘在一起:

符号	含义	代码字段
U	有用性(答对合法请求)	`utility_accuracy`
A	访问控制违规率(泄露给无权方)	`privacy_leakage_rate`
F	主动遗忘失败率(删了又答出来)	`deletion_leakage_rate`
MGS	U × (1 − A) × (1 − F)	`compliance_utility_score`

这个乘法式的设计本身就是一种态度:三项里任何一项垮掉,综合分就被乘没。你不能靠「特别能记、答得特别全」去对冲「特别爱泄露」——这正是单用户记忆基准里常被忽略的取舍。

核心结论也由此而来:在所有底座与基线的组合里,没有任何方法能同时拿到强有用性、稳健访问控制和可靠遗忘。其中,长上下文直接喂(Long-Context)往往拿到最好的治理分,但代价是极高的 token 成本;而基于检索(RAG)和外部记忆的方法虽然把成本压了下来,却仍会泄露未授权或已删除的信息。论文据此判断:当前的记忆智能体「离可靠的共享机构级部署仍有很大距离」。(注:排行榜的具体数值在原文以表格图片呈现,本文未逐项摘录,以上为论文与代码库给出的定性结论与指标口径。)

为何重要

这篇工作的分量,不在于又多了一个 benchmark,而在于它把「记忆」这个被产品化叙事推得很热的能力,重新拉回到了一个被刻意回避的难题面前——多人共享下的治理。

第一,它戳破了「单用户假设」。过去一年记忆类评测大多围绕「一个用户、一段长历史、记得准不准」打转,而企业、医疗、教育这些最想用 AI 助手的场景,恰恰天然是多人共享的:一个科室的医生护士共用一个助手、一个公司的员工共用一个知识助理、一个家庭的成员共用一个家用 agent。在这些场景里,「我能记住一切」不是优点而是隐患——它意味着「我可能把 A 的事说给 B 听」。GateMem 第一次把这个被产品演示刻意绕开的维度,变成了可量化、可对比、可刷榜的硬指标。

第二,它把隐私与合规从「事后补丁」变成了「评测的一等公民」。MGS 的乘法设计传递了一个明确信号:访问控制和遗忘不是「锦上添花」,而是「一票否决」。这与现实里数据合规的逻辑一致——发生一次越权泄露或一次「删了又冒出来」,对一家医院或企业造成的就不是「体验略差」,而是合规事故。把这种「一票否决」写进打分公式,等于在告诉整个记忆智能体方向:别再只比谁记得多。

第三,它点出了一个工程上很现实的两难。结果显示治理做得最好的是「长上下文直接喂」——某种程度上这并不意外:全量原文摆在那儿,模型每次都能看到完整的、带原始权限语境的信息,反而更容易按规矩办事。但它的代价是 token 成本随历史线性膨胀,在真实共享部署里几乎不可承受。而工程上为省成本采用的检索与外部记忆,恰恰在「压缩、抽取、改写」的过程中丢失了权限语境,于是泄露和遗忘失败就来了。省成本与守边界,在现有方法里被证明是一对此消彼长的矛盾——这才是这篇论文最有价值的发现。

早报观点

我们认为 GateMem 最大的贡献是重新定义了「好记忆」的及格线:它不再是「召回率多高」,而是「在多人、多角色、有删除请求的现实约束下,还能不能既有用又守得住边界」。这个转向比任何单点的方法创新都重要——它把整个赛道从「能力竞赛」拽向了「治理竞赛」。一旦评测的指挥棒变了,后面的方法设计、产品宣传口径都会跟着变。

但要给三个 caveat。其一,「全部不及格」要读清楚它的语境。GateMem 是开放标签的离线对抗基准,刻意构造了拆分重构、社会工程、删除后恢复等高难度套取场景——这相当于专挑记忆系统的软肋施压。它的结论不是「现有记忆毫无用处」,而是「现有方法在严格治理标尺下都有明显短板」。这是一个警示性的下限,不是日常体验的写照,别把它简单读成「记忆功能都是摆设」。

其二,长上下文「赢」得有水分。它治理分高,很大程度是因为「没做压缩」——信息没被抽走,权限语境自然还在。这更像是「问题被成本掩盖了」,而非「问题被解决了」。真正值钱的难题恰恰是:如何在压缩与检索的同时不丢失授权语境。GateMem 把这个难题清晰地摆了出来,但它本身是一个评测,不负责给出答案;谁能在低成本下逼近长上下文的治理分,谁才真正前进了一步。

其三,这是一篇新论文 + 单一团队的工作,四个域均为合成场景(synthetic domains)。合成数据的好处是可控、可标注泄露目标,坏处是与真实机构数据的复杂度、噪声、权限关系未必完全对齐。它有公开代码、公开数据、公开排行榜和在线提交入口,可复现性的门槛拉得很低——这是加分项;但「基准本身的代表性是否经得起社区检验、会不会被针对性地刷榜」,要等后续更多独立方法上榜、更多第三方复现之后才能下定论。在那之前,把它当成「一个设计精巧、值得跟踪的早期标尺」,比当成「记忆智能体的终审判决」更稳妥。

接下来看什么

排行榜上的具体数字与新方法:公开 leaderboard 上各方法的 U / A / F 三项与 MGS 综合分会如何分布,是否有新方法能在低 token 成本下逼近长上下文的治理水平——这是检验「省成本与守边界能否兼得」的关键。
主流记忆产品会不会接这套标尺:Mem0、A-MEM 等已被列为基线的方案,以及各家「带记忆的助手」,是否会主动在多主体治理维度上报成绩、做对比。指挥棒认不认,看厂商跟不跟。
是否出现「治理优先」的新记忆架构:把访问控制和遗忘当作一等约束、而非检索之上的后处理过滤,可能催生不同于当前 RAG / 外部记忆的设计思路。
合成基准向真实场景的迁移:后续是否有团队用真实(脱敏)的医疗、企业数据复现 GateMem 的结论,或指出合成场景与真实部署的差异——这决定了它的结论能外推多远。
「删除即遗忘」会不会被监管盯上:主动遗忘失败率(F)直接对应「用户要求删除、系统却仍能答出」的合规风险,这一维度很可能成为数据合规与 AI 治理讨论里的新抓手。