#AI Agent
这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。
Anthropic 推 Claude Tag:把 Agent 搬进 Slack,自家产品团队 65% 代码已由它生成
Anthropic 发布 Claude Tag(6-23,本期为延续报道),团队在 Slack 里 @Claude 即可委派任务,Claude 作为常驻成员加入频道、连接工具/数据/代码库,运行于 Opus 4.8,对 Enterprise/Team beta 开放,并替换旧版『Claude in Slack』、给管理员 30 天迁移窗口。四大特性:multiplayer 多人接力、跨频道随时间学习、ambient 主动推送/跟进、异步自主推进数小时至数天。治理被做成一等公民:按频道配工具、记忆隔离身份、组织/频道双层 token 上限、全量操作日志。Anthropic 称这是『Claude Code 的演进』,其产品团队 65% 代码已由内部版生成,用途已扩展到追指标、处理工单、定位 bug——远超 Google(>30%)与微软(20-30%)公开数字。
Execute-Distill-Verify:破解 agent 经验学习的「自我确认陷阱」
一篇新论文指出 agent 经验学习的核心失效模式——同一个 agent 既执行又评估,会把「错误但自洽」的轨迹当成有效经验写入记忆并越用越偏。EDV 用异构 agent 并行探索、第三方蒸馏、执行组共识校验三阶段解耦,τ²-bench 均分 Pass@1 86.6(对比 Router 83.5),且较 ReasoningBank 省 24.5% token。
GateMem:首个面向多用户共享记忆的『记忆治理』基准,现有方法全部不及格
GateMem(arXiv 2606.18829,18 upvotes)把记忆智能体从单用户假设推向医院/职场/校园/家庭等多主体共享场景,联合考核三件事:对合法长程请求的有用性、跨授权边界的访问控制、删除请求后的主动遗忘。基准含 91 段多方长对话、2218 个隐藏检查点、4 个域、7 个记忆基线 × 6 个底座 LLM。结论:没有任何方法能同时做到强可用、稳健访问控制与可靠遗忘。
这篇的价值在于戳破了一个被普遍忽视的盲区——Agent 记忆不只是『记得更多』,在多用户共享部署里更是『谁能看、什么该忘』的治理问题。长上下文方法治理分最高但 token 成本爆炸,检索/外部记忆省钱却会泄露未授权或已删除信息。对正在把记忆塞进企业级 Agent 的厂商,这是一记预警:没有访问控制与可遗忘机制,共享记忆就是合规与隐私地雷。
MemSlides:分层记忆驱动的个性化幻灯片 Agent 登顶当日 HF 榜
MemSlides(arXiv 2606.17162,北邮/清华/上交)以 159 upvotes 居当日 HuggingFace 策展榜首。它把记忆分为长期记忆(用户画像+工具记忆)与会话工作记忆,通过 Plan–Act–Guard 流水线实现『局部最小改动』式多轮修订,而非整份重做。在 GPT-5、GLM-5、Gemini 3.1 Pro 上,人格对齐相对 DeepPresenter/SlideTailor 多维度提升;工具记忆消融显示『首次正确编辑时间』从 609.5s 降至 242.5s。
这篇登顶不是偶然——它精准踩中当下 Agent 工程最痛的两个点:个性化持久记忆与『局部修订』而非全量重生成。把用户画像、会话工作记忆、可复用工具经验三层拆开,是从『一次性生成』走向『可迭代协作』的范式转变,对所有文档/代码/设计类 Agent 都有借鉴价值。结合当日 GateMem、WorldLines 同台,『记忆』已成为 2026 年中 Agent 研究的主战场。