Topic Timeline
#工具调用
这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。
研究论文 2026-06-24 · 周三 重要度 4/5 深度报告 →
PlanBench-XL:1665 个工具的长程规划评测,前沿模型在「静默失败」前集体失灵
UIUC 团队提出交互式长程规划基准 PlanBench-XL:327 个零售任务、1665 个工具、56 种数据类型,工具需检索动态发现,平均约 25 轮、最短解 5–9 次调用。Gemini-3.1-Pro 最强(77.06%),GPT-5.4 默认 51.90% 但在最严重阻塞下崩到 11.36%,最小模型为 0%;探索度与准确率强相关(r=0.902),「静默失败」危害最大。
研究论文 2026-06-23 · 周二 重要度 5/5 深度报告 →
PlanBench-XL:把前沿模型扔进 1665 个工具的「迷宫」,长程规划集体露怯
UIUC 团队提出 PlanBench-XL,用 327 个零售任务、1665 个需检索发现的工具、平均约 25 轮交互,评测 LLM 智能体在大规模工具生态下的长程规划。引入显性/隐性/误导三类工具阻塞模拟「缺失、失效、干扰」。GPT-5.4 无干扰准确率 51.90%,重度阻塞下骤降至 11.36%;Gemini-3.1-Pro 以 77.06% 领先,Qwen3-8B、Llama-3.1-8B-Instruct 为 0%。
这是当天最有分量的一篇:它把「agent 能不能用」的问题从单步工具调用提升到大规模工具生态 + 动态故障的真实复杂度。最扎心的发现是『沉默失败最伤』——隐性工具故障最难被模型察觉,GPT-5.4 的主导失败模式是 72.4% 的『不可逆漂移』,说明当前模型一旦走错就回不来。探索倾向与准确率高度相关(Pearson r=0.902),提示『敢于试探』是长程规划的关键能力。