智能体能力被「极限拷问」:长程规划与真实办公评测同日登场,效率派架构集体发力
本期为历史回溯补档(归档日 2026-06-23,北京时间),实时社媒与算法流无法回溯,主要依据当日 HuggingFace 策展论文与可检索到的公开发布整理;检索期间 WebSearch 接口持续不可用,深度选题以一手 arXiv/HuggingFace 论文为主力支撑,事实可溯源。当天没有头部厂商的重磅模型发布,主线落在「智能体到底行不行」的硬核评测上:PlanBench-XL 用 1665 个工具、平均 25 轮的零售任务把前沿模型的长程规划逼到崩溃,EnterpriseClawBench 则把 852 个真实职场会话变成可复现评测,直接给 Claude Code、Codex 等 harness 打分。与此同时,GQE、R-SWA、Confident Decoding 等一批「省算力不掉点」的架构/解码工作集中出现,透露出当下业界对推理成本与可靠性的共同焦虑。
总览
产品上新
1MemSlides:分层记忆驱动的个性化幻灯片 agent,局部改稿不重生成整份
当日 HF 策展 upvotes 最高(159)。北邮、清华等提出 MemSlides,把长期记忆(用户画像记忆+工具记忆)与工作记忆分离,做个性化幻灯片生成与多轮局部改稿:用『Plan–Act–Guard』流水线只改最小受影响区域,而非反复重生成整份 deck;并放出 30 条人物-意图画像、覆盖 10 个职业的评测集。
upvotes 最高,且代表多轮局部修订 + 偏好记忆这一 agent 产品化趋势。
对生产力工具开发者:提供了一套可借鉴的『记忆 + 局部编辑』架构,降低改稿成本、提升偏好一致性。
159 HF upvotes
它代表 agent 应用从『一次性生成』转向『可迭代、记得住偏好』的产品化方向。把『改一页不动全篇』做成一等公民,直击 PPT/文档类 agent 反复重生成、丢失上下文偏好的真实痛点。分层记忆 + 局部编辑这套组合,大概率会外溢到更广的文档/设计类 agent。值得关注的是其评测集偏小(30 条画像),普适性待更大规模验证。
接下来看:分层记忆 + 局部编辑是否外溢到更广文档类 agent / 更大规模画像下的普适性
研究论文
11PlanBench-XL:把前沿模型扔进 1665 个工具的「迷宫」,长程规划集体露怯
UIUC 团队提出 PlanBench-XL,用 327 个零售任务、1665 个需检索发现的工具、平均约 25 轮交互,评测 LLM 智能体在大规模工具生态下的长程规划。引入显性/隐性/误导三类工具阻塞模拟「缺失、失效、干扰」。GPT-5.4 无干扰准确率 51.90%,重度阻塞下骤降至 11.36%;Gemini-3.1-Pro 以 77.06% 领先,Qwen3-8B、Llama-3.1-8B-Instruct 为 0%。
长程、多工具、带故障恢复是 agent 落地的真实门槛,这套评测直击行业最薄弱处,且可直接当作 RL 训练环境。
给 agent 厂商一面照妖镜:无干扰跑分好看,加入真实故障即崩溃;企业选型应重点考察故障恢复与重规划能力,而非干净环境下的成功率。
327 / 1665 / ~25 任务/工具/轮次
51.90% → 11.36% GPT-5.4 无干扰→重度阻塞
这是当天最有分量的一篇:它把「agent 能不能用」的问题从单步工具调用提升到大规模工具生态 + 动态故障的真实复杂度。最扎心的发现是『沉默失败最伤』——隐性工具故障最难被模型察觉,GPT-5.4 的主导失败模式是 72.4% 的『不可逆漂移』,说明当前模型一旦走错就回不来。探索倾向与准确率高度相关(Pearson r=0.902),提示『敢于试探』是长程规划的关键能力。
接下来看:是否被采纳为长程 agent 的标准评测 / 前沿模型在隐性工具故障下的恢复率能否提升
EnterpriseClawBench:把 5291 条真实职场会话变成评测,给 Claude Code、Codex 直接打分
该基准从真实企业 agent 会话中提炼出 852 个可复现任务(含 120 题人工审核的 Lite 子集),用『硬规则 + 五维语义评判』双层打分,评测了 32 个 harness-模型组合(Claude Code、Codex、DeepAgents、Hermes、OpenClaw)。因含内部内容,数据不公开,公开的是构建与评测协议。最佳 Lite 成绩仅 0.663(Codex+GPT-5.5),全集 DeepAgents 上 GPT-5.5=0.766、Sonnet 4.6=0.749、Haiku 4.5=0.632。
真实职场任务远未饱和(最佳仅 0.663),且首次系统量化了 harness 对 agent 表现的放大/抑制效应。
对企业买方:别只看模型榜单,harness 选择可能比换模型影响更大;对评测社区:提供了一条『数据保密、协议开源』的可复用路线,绕开企业数据合规难题。
852 / 0.663 任务量 / Lite 最佳
0.458 vs 0.62–0.64 harness 放大效应
它补上了 agent 评测最稀缺的一环:真实办公场景而非合成任务。两个判断值得划重点:其一,harness 影响巨大——同一个 Sonnet 4.6 在 Hermes 下掉到 0.458,在其他 harness 下 0.62–0.64,说明『模型 + 框架』要一起评,单看模型分会误导选型;其二,文本评判与人类对齐尚可(MAE 0.134),但视觉产物评判很弱(MAE 0.303、秩相关为负),意味着对图表/界面类交付物的自动评分还不可信。
接下来看:『数据保密+协议开源』模式能否被复制到更多企业 / 视觉交付物的自动评判何时变得可信
Grouped Query Experts:在注意力里做 MoE,KV cache 不变、预填充提速近 1.8×
GQE 把 GQA 分组内的查询头当作专家,由路由器为每个 token 选 top-k 个查询头专家,而 KV 头保持稠密、始终计算,从而保留 GQA 的 KV cache 优势,只削减激活的查询头算力。250M 参数 / 30B token 预算下,完整 GQE 三任务平均 56.04,略高于稠密 GQA 基线 55.86;预填充在 4k–1024k token 区间提速约 1.67–1.80×。
在长上下文推理成本高企的当下,任何『不增 KV cache 又能省算力』的结构都值得关注。
对训练/推理基础设施:提供了一个与 GQA 兼容、可叠加的提速选项;但能否在主流尺寸保持『不掉点』仍是最大未知数。
56.04 vs 55.86 平均准确率(GQE vs 基线)
约 1.67–1.80× 预填充加速
这是一条很『务实』的效率路线:不动 KV cache(推理显存的大头),只在注意力的查询侧做稀疏化,等于把 MoE 的思路搬进 attention 而不破坏长上下文的内存画像。但要诚实看待局限——作者自己强调这是『匹配而非提升』(+0.18 在误差范围内),且只验证到 250M/30B token 的小规模,小专家池,需多种子和更大规模复现才能下结论。
接下来看:能否从 250M 放大到主流尺寸仍不掉点 / 多种子复现是否稳定
PerceptionDLM:用扩散语言模型并行做区域感知,吞吐提速最高 3.44×
来自北大、ByteDance、武大、CASIA、NUS 的工作,首次用多模态扩散语言模型(DLM)实现并行区域描述:不同于自回归逐区域处理,它用结构化注意力掩码让多个掩码区域同时被描述。基于 SigLIP-2 + LLaDA-8B,提出 ParaDLC-Bench(2345 题、GPT-5.2 为评判)。多模态 16 项基准中 15 项超 LLaDA-V,ParaDLC-Bench 准确率 62.4%(LLaDA-V 35.2%),完全并行时吞吐最高提速 3.44×,单图延迟从 10.04s 降到 2.92s。提交于 6 月 17 日。
为多模态扩散语言模型找到了一个对自回归有明确并行优势的落地场景,且有开源。
对多模态研究者:提供了一个强开源扩散多模态基线和并行感知机制;对推理成本敏感的区域级感知应用(检测描述、GUI 理解)是直接利好。
62.4% ParaDLC-Bench 准确率
最高 3.44× / 2.92s 吞吐提速 / 延迟
扩散语言模型一直被质疑『只快不准』,这篇用区域感知这个天然可并行的任务给出了反例:既显著超越扩散基线,又把自回归逐区域的延迟砍掉近 7 成。它的价值在于点明了 DLM 的差异化战场——凡是输出之间相互独立、可并行的结构化感知任务,DLM 的并行解码就有结构性优势。下一步看它能否从『感知』扩展到『生成与推理』,那才是对自回归的正面挑战。
接下来看:DLM 并行优势能否扩展到生成与推理任务 / ParaDLC-Bench 是否被采纳
Confident Decoding:别只信最后一层,Qwen 团队用「熵谷」选层,训练免改还涨分
Qwen 团队联合清华、NTU 挑战『最后一层表征最优』的假设,提出『Guess–Refine–Perturb』动态:早层粗猜、中层精化语义、末层可能把预测推向通用的对齐偏好 token(即『对齐税』)。Confident Decoding 是训练免改的即插即用解码策略,保留完整前向,用熵作为置信信号在『熵谷』动态选择喂给采样器的层。实测 FLOPs 增加不到 1%、零额外 KV 显存;Qwen3.5-27B 在 LiveCodeBench v6 上 +10.1%,GPQA-D +6.5%,gpt-oss-20b 在 Omni-MATH 最难档 +22.4 分。
训练免改、可直接集成进推理框架,且揭示了对齐与推理能力之间的层级张力,理论 + 实证兼具。
对推理框架与部署方:近乎免费的解码侧增益,极可能被 vLLM/SGLang 类框架快速吸收;对对齐研究:为『对齐税』提供了可操作的缓解手段。
+10.1% LiveCodeBench v6 增益
FLOPs <1% 额外开销
这篇的杀伤力在于『几乎零成本』:不用重训、不加显存、延迟增加不到 2%,却能在硬核推理任务上拿到两位数百分点提升。它把『对齐税』具象化为末层把预测拉向安全/通用 token 的现象,并用最优停止理论给出选层的 minimax 最优性。需谨慎的是收益高度任务相关——代码/数学等高难推理增益明显,普通指令任务平均只 +2.8%,且需更多模型族验证普适性。
接下来看:是否被主流推理框架直接集成 / 在更多模型族上的普适性
Unlimited OCR:固定 KV cache 的滑窗注意力,一次性解析数十页文档
百度的工作针对 DeepSeek OCR 类端到端模型『输出越长 KV cache 越大』的痛点,提出 Reference Sliding Window Attention(R-SWA):每个 token 关注全部参考 token(视觉+提示)但只关注前 n 个输出 token(默认 128),把 KV cache 固定为 m+n。保留 DeepEncoder 高压缩(1024×1024 页约 256 token)。OmniDocBench v1.5 总分 93.23,超 DeepSeek OCR 基线 6.22 分;v1.6 达 93.92(端到端 SOTA);40+ 页长程解析编辑距离仍低于 0.11。3B 总参 / 0.5B 激活的 MoE。
文档解析是 RAG 与企业知识库的入口,长文档一次性、低成本解析有直接生产价值。
对文档智能/RAG 落地方:提供了一个长程稳定、吞吐更高的端到端 OCR 选项;对长程生成研究:R-SWA 是『固定 KV cache』思路的又一实证。
93.23 OmniDocBench v1.5 总分
<0.11 / +12.7% TPS 长程稳定性 / 提速
这是『长程恒定开销』思路在 OCR 上的一次干净落地:模仿人类『解析工作记忆』,让长篇复制任务的效率不随页数增长而劣化。亮点是 32K 上下文内单遍解析数十页且精度不塌(40+ 页编辑距离 <0.11)。但要注意它是用线性复杂度注意力换长程稳定性,本质是工程权衡;作者也把它定位为『初步验证』,并预告扩展到 ASR 和翻译——能否在这些新模态保持优势仍待观察。
接下来看:能否扩展到 ASR/翻译并保持优势 / 真实长文档(合同/票据)落地效果
DataClaw0:把『数据处理』变成可学习的 agent 能力,从原始流裁剪多模态数据
清华等提出『Agentic Data Tailoring』:不再被动标注,而是主动把高熵的非结构化多模态流裁剪成与用户意图对齐的结构化输出。基于 Qwen3.5-9B,SFT + GRPO 联合训练,两阶段流水线(自底向上抽取『事实锚点』+ 自顶向下语义合成),分 Omni(统一)与 Expert(领域解耦)两种范式。DataClaw0-val 上 Field 最高 97.53,接近 Gemini-3.1-Pro-Preview 的 98.12。
代表『数据处理即能力』的范式转向,且用下游任务闭环验证数据质量。
对数据团队与训练方:提供了一条用 agent 自动裁剪、对齐多模态训练数据的路线,可能压缩数据准备成本。
97.53 DataClaw0-E Field 分
这反映了一个正在成形的判断:数据工程本身正在被『agent 化』。把数据裁剪从一次性预处理变成可学习、可奖励优化的能力,意味着『为下游任务定制数据』可以闭环训练。用下游后训练(GUI 导航、视频生成、时空 VQA)反向验证数据质量,是个聪明的评测设计。但 9B 模型在 Field 维接近顶级闭源、Semantic/Sequence 维仍有差距,说明结构对齐易、语义/序列建模难。
接下来看:『数据处理即能力』能否成为主流训练范式 / 语义/序列维度的差距能否补齐
World Action Models 综述:给 WAM/VLA/世界模型『正名』,Dream Less, Act More
NUS 的综述试图终结社区对 World Action Models 的术语混乱:明确 WAM『不是带动作头的视频生成器』,提出『面向动作的未来』契约,给出两套分类(设计哲学视角:Render-and-Decode/Latent-Only/Video-Generation-Free;组件解剖视角:预测基底/动作耦合/骨干/部署四轴),并把每个 WAM 表达为统一 4 元组,讨论可交互性、因果性、持久性、物理合理性、泛化五种具身属性。
为混乱的 WAM/VLA/世界模型术语提供统一定义和分类,降低社区沟通成本。
对具身智能研究者:提供了清晰的分类框架与设计权衡地图;有助于厂商间口径对齐,减少概念营销。
3 设计哲学 / 4 组件轴 分类维度
在具身智能 + 世界模型概念被各家厂商反复包装的当下,一篇把术语和边界讲清楚的综述很有必要。它点出的趋势——『生成更少的未来、只保留控制所需』——是对纯视频生成路线的纠偏:不必把整段未来渲染成像素,从潜空间/流/掩码直接解码动作可能更高效。对想入场具身的团队,这是一份难得的术语对齐与路线地图。
接下来看:统一定义能否被社区采纳 / 『生成更少未来』路线是否成为主流
OpenRath:把 agent 系统当运行时,提出以 Session 为核心的一等运行态
清华的工作主张现代 agent 应用更像运行时系统而非简单对话,指出『隐藏运行态』问题——状态散落在日志、记忆库、trace 等旁路。OpenRath 借鉴 PyTorch 编程模型:Session=流动的值,Agent=可复用变换(类比 layer),Workflow=组合容器,统一 forward(session)->session 契约,用 session.to(backend) 表达放置。定位为 AutoGen/LangGraph/OpenAI Agents SDK/MCP 的补充而非替代,且采用『审计优先』发布协议、不报跑分。
切中 agent 工程化的真实痛点(运行态碎片化),提供了清晰的抽象与审计优先的工程范式。
对 agent 框架开发者:提供了一套可借鉴的运行态抽象;对从业者:提示『状态管理』是 agent 可靠性的核心。
7 类 核心对象词汇
这是 agent 工程化走向成熟的信号:当大家发现 agent 的真正难点是状态管理而非提示词时,把 Session 抽象成一等公民、用熟悉的 PyTorch 心智模型组织 agent 程序,是个有工程品味的思路。不报跑分、只把声明映射到证据包的『审计优先』姿态也值得肯定——比起又一个刷榜框架,把运行态讲清楚更有长期价值。当然,能否被生态采纳取决于它与现有框架的互操作性。
接下来看:与现有 agent 框架的互操作性 / 审计优先发布协议能否被效仿
CLI-Universe:为终端 agent 合成可验证任务,32B 模型 Terminal-Bench 2.0 冲到 33.4%
南大、StepFun、上海 AI Lab 等针对终端 agent 训练数据稀缺,提出『由内向外』的任务合成引擎:任务蓝图构建→Docker 环境实体化→多阶段验证过滤(约三分之二候选被拒,仅 33.6% 存活)。产出 CLI-Universe-6K 训练集。Terminal-Bench 2.0 上 CLI-Universe-32B 达 33.4%,超同尺寸 SkillSynth-32B(29.6)及更大的 Qwen3-Coder(480B,23.9),但仍落后 Claude-Opus-4.5(57.8)。
终端 agent 训练数据稀缺,可验证合成是提升开源模型能力的关键路径。
对开源 coding/终端 agent:提供了一条可复用的高质量数据合成路线;但与顶级闭源的差距提醒不要高估纯数据合成的天花板。
33.4% Terminal-Bench 2.0(32B)
终端/CLI agent 是 coding agent 的硬骨头,数据合成质量直接决定上限。这篇的价值在于把『可验证』做实——用角色分离的 agent 做规则门控测试、fail-to-pass 检查,官方解能通过 91% 合成测试。但也暴露了开源与闭源的鸿沟:32B 苦练到 33.4%,仍不及 Claude-Opus-4.5 的 57.8,说明高质量合成数据能缩小但远未填平差距。
接下来看:能否持续推高 Terminal-Bench 2.0 / 与顶级闭源模型的差距能否缩小
BioMatrix:序列-结构-语言统一的生物基座,80 任务里 77 项 SOTA
上海 AI Lab 等提出 BioMatrix,称是首个在单一 decoder-only 架构内原生融合『序列、结构、语言』、同时覆盖分子与蛋白质的多模态生物基座。通过统一 tokenization 把 SMILES/SELFIES、分子结构、蛋白序列/结构与语言映射到共享离散 token 空间,统一 next-token 预测,无需外部编码器或模态专用输出头。基于 Qwen3(1.7B/4B)持续预训练 3044 亿 token,在 6 类 80 个任务上 77 项达 SOTA 或有竞争力。提交者于 6 月 23 日提交。
代表生物多模态统一基座的探索方向,且模型与数据集均开源。
对 AI for Science 研究者:提供了一个统一架构的开源生物基座与 2360 万规模 SFT 数据集;但跑分声明待第三方验证。
77 / 80 SOTA 任务占比
AI for Science 的一个值得记的方向:把生物多模态统一进一个『纯语言模型式』的 token 空间,省掉适配器和专用头,理论上能让分子与蛋白之间的跨模态生成更自然。77/80 SOTA 的说法很亮眼,但置信度需谨慎——生物基座的评测口径差异大、复现门槛高,且『SOTA 或有竞争力』的措辞把两类结果混在一起。建议等第三方在标准任务上独立复现后再下定论。
接下来看:77/80 SOTA 能否被第三方复现 / 统一 token 空间对跨模态生成的实际增益