Topic Timeline
#RL
这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。
研究论文 2026-06-23 · 周二 重要度 5/5 深度报告 →
PlanBench-XL:把前沿模型扔进 1665 个工具的「迷宫」,长程规划集体露怯
UIUC 团队提出 PlanBench-XL,用 327 个零售任务、1665 个需检索发现的工具、平均约 25 轮交互,评测 LLM 智能体在大规模工具生态下的长程规划。引入显性/隐性/误导三类工具阻塞模拟「缺失、失效、干扰」。GPT-5.4 无干扰准确率 51.90%,重度阻塞下骤降至 11.36%;Gemini-3.1-Pro 以 77.06% 领先,Qwen3-8B、Llama-3.1-8B-Instruct 为 0%。
这是当天最有分量的一篇:它把「agent 能不能用」的问题从单步工具调用提升到大规模工具生态 + 动态故障的真实复杂度。最扎心的发现是『沉默失败最伤』——隐性工具故障最难被模型察觉,GPT-5.4 的主导失败模式是 72.4% 的『不可逆漂移』,说明当前模型一旦走错就回不来。探索倾向与准确率高度相关(Pearson r=0.902),提示『敢于试探』是长程规划的关键能力。