研究论文

PlanBench-XL:1665 个工具的长程规划评测,前沿模型在「静默失败」前集体失灵

工具不再摆在面前等你挑,而要自己去检索、试错、纠偏——前沿模型一旦拿不到失败信号,就把错误一路传播到底。

2026年6月24日 · 周三 深度报告 高置信 重要度 4/5

伊利诺伊大学厄巴纳-香槟分校(UIUC)的研究团队在这一天放出了 PlanBench-XL,一个专门拷问大模型 Agent「长程规划」能力的交互式基准。它的设定刻意贴近真实工程:1665 个工具56 种数据类型327 个零售域任务,而且工具不会摆在模型面前等它挑——必须靠检索动态发现,平均要走约 25 轮对话,最短的正确解也需要 5 到 9 次不同的工具调用。结论很扎眼:最强的 Gemini-3.1-Pro 拿到 77.06% 准确率,GPT-5.4 在无干扰设定下只有 51.90%,而一旦开启最严苛的「阻塞」,GPT-5.4 直接崩到 11.36%;最小的 Qwen3-8B、Llama-3.1-8B 则是干脆的 0%

发生了什么

过去的工具调用基准,大多把可用工具直接列给模型,任务也短——选对一两个函数、填对参数就算赢。PlanBench-XL 想补的正是这个缺口:论文摘要原话是「现有基准很少评测在检索受限的工具可见性下的规划能力」。

它的运行方式更像真实的 Agent 工作流:模型面对一个零售域目标(比如处理退货、查询订单状态、调整配送),但看不到全部 1665 个工具,每一步要先用检索把可能有用的工具捞出来(每次检索最多返回 30 个结果),再调用、拿到中间证据、推断下一个隐含子目标,如此迭代,直到攒齐信息完成目标。整个交互上限是 100 轮(T_max=100),最短解的路径长度(L*)被设计在 5 到 9 之间。

最关键的设计是一个可选的**「阻塞机制」(blocking mechanism)**,用来模拟现实里的不确定性——工具会缺失、会失败、会误导。论文把阻塞分成三类:

  • 显式失败(Explicit Failure):替换后的工具直接返回明确错误,比如「error: endpoint unavailable」。模型至少知道这条路断了。
  • 隐式/静默失败(Implicit Failure):工具给出一个看似正常、实则「悄悄违背其文档行为」的无用响应。模型拿不到任何报错信号。
  • 语义误导(Semantically Misleading):替换工具「功能相关但不同」,看上去像个合理替代品,实则会把任务带偏。

重要的是,每个被阻塞的实例都至少保留一条可行的工具调用路径——也就是说,题目永远有解,失败只能归咎于模型自己没找到、没纠偏。研究团队在十个主流大模型上跑了这套基准。

关键数据 / 技术细节

无干扰(block-free)默认设定下,十个模型的表现分化极大。下表是论文 Table 3 的核心结果(准确率为完成任务的比例,EGT Prec. 为「探索-目标-工具」精度,Mean EDT 近似探索深度):

模型准确率EGT 精度平均轮数Mean EDT(探索度)
Gemini-3.1-Pro77.06%91.47%19.5527.41
DeepSeek-V4-Flash63.08%65.57%31.4125.34
Gemini-3.5-Flash52.19%85.29%57.8725.16
GPT-5.451.90%72.92%22.9220.65
Llama-3.3-70B-Instruct18.96%59.67%19.1319.20
GPT-5.4-Mini3.07%71.25%10.819.22
Qwen3-32B2.75%62.36%12.0318.54
Qwen3-14B0.92%47.77%35.7412.01
Qwen3-8B / Llama-3.1-8B0.00%35–41%~21–267.64 / 9.89

两个信号特别值得拎出来:

第一,探索度与准确率几乎线性相关。论文报告 Mean EDT(平均探索深度)与准确率的皮尔逊相关系数高达 r=0.902,「输出条件检索频率」与准确率 r=0.800,EGT 精度与准确率 r=0.781。换句话说,愿意多检索、多试探的模型,才更可能把长任务做对;那些早早收敛、不肯继续探索的(EDT 低的小模型),准确率直接归零。反过来,「无效检索率」ITCR 与准确率呈负相关(r=-0.443)——瞎检索也没用,得检索得准。

第二,阻塞之下前沿模型断崖式下跌。以 GPT-5.4 为例:默认 51.90% → 当只保留一条可行路径时降到「约 30%」 → 最严苛设定(只留最长的恢复路径)下「略高于 10%」,摘要给出的精确数字是 11.36%。论文的结论判断很直接:「当失败缺乏明确错误信号、或恢复需要更长的替代路径时,Agent 尤其脆弱。」 三类阻塞里,正是拿不到报错的隐式/静默失败危害最大——按文档行为本应成功、实际却悄悄返回坏值,模型默认它成功了,于是把这个错误值当作可信中间结果,一路传播到后续调用,最终满盘皆错。

实验设置上,开源模型经 vLLM 部署、闭源走 API,统一温度 0.0、最大输出 8192 token、全局随机种子 42,可复现性较好。代码与数据集均已开源(分别为 MIT 与 CC 许可)。

为何重要

这篇论文的价值不在「又一个榜单」,而在它测的东西更接近真实生产环境里 Agent 真正会崩的地方

如今企业级 Agent 的现实是:工具不是几个,而是成百上千个内部 API、微服务、数据接口;它们不会乖乖列在 prompt 里,要靠检索/路由动态拉取;而且真实世界的工具会超时、会返回脏数据、会有文档与行为不一致的坑。PlanBench-XL 把这三件事——大规模工具池、检索受限可见性、不可靠工具——同时塞进一个基准,正好戳中了「demo 里跑得通、上了生产就翻车」的那段落差。

它也给「模型能力排序」补了一个维度。在简单工具调用基准上,很多模型差距没那么大;但在需要持续探索、动态纠偏的长程任务上,差距被指数级放大:头部(77%)与次头部(63%/52%)拉开一档,中小模型(<20%)几乎全军覆没,8B 级别直接 0%。这说明长程规划+大规模工具检索是一种涌现式的、强烈依赖规模与训练的能力,不是靠提示工程能简单补齐的。

放进行业脉络看,这一年 Agent 评测正从「单步工具调用」(如 ToolBench 一类)向「长程、交互、带扰动」演进,τ-bench 等也在往真实客服/零售场景靠拢。PlanBench-XL 的差异化贡献,是把「检索受限可见性」和「可控的失败注入」做成了可量化、可分级的实验旋钮——这让它更像一台诊断仪,而不只是排行榜。

早报观点

我们的判断:PlanBench-XL 真正点破的,是当下 Agent 最危险的失效模式不是「不会做」,而是**「做错了还不知道」。显式报错其实是好事——模型至少能据此换路;最致命的是隐式/静默失败,工具按文档「应当成功」却悄悄返回坏值,模型没有任何信号去怀疑,于是把错误值当真相往下传,错误在长链条里被逐级放大。这意味着,Agent 的鲁棒性瓶颈很可能不在「规划」本身,而在「对工具返回结果的怀疑与校验能力」**——一个永远默认上游可信的 Agent,工具池越大、链路越长,就崩得越彻底。

第二个判断,关于那个 r=0.902 的强相关:它既是好消息也是陷阱。好消息是,「肯探索」确实直接换来准确率,说明提升空间存在;陷阱是,探索是有成本的——平均约 25 轮、上限 100 轮,在真实场景里每一轮都是真金白银的 token 与延迟。所以「多探索」不能无限堆,真正的解法应当是**「更准的探索」**(论文里 ITCR 负相关已暗示这点):知道何时该深挖、何时该止损、何时该怀疑刚拿到的结果。这对推理预算的分配,是比「把上下文塞满工具」更难也更值钱的工程问题。

需要保留的 caveat:其一,基准局限在零售域这一个垂类,327 个任务规模不算大,能否外推到金融、运维、医疗等更高风险领域,仍待验证。其二,部分阻塞条件下的逐模型细分数据只出现在论文图(Figure 2–5)里、未给出完整数值表,我们引用的崩盘曲线(51.90%→约30%→11.36%)以摘要与可提取文本为准,精确到每个阻塞比例的分模型数字本文无法逐一核对。其三,论文涉及的模型版本号(GPT-5.4、Gemini-3.1-Pro 等)按原文如实转述,本文不对其发布状态做额外断言。

但即便打了这些折扣,核心信号依然成立:当工具世界变得又大又不可靠,前沿模型的长程规划能力远没有它们在干净 demo 里表现得那么稳。 这对正在把 Agent 往生产推的团队,是一盆及时的冷水。

接下来看什么

  • 静默失败的检测与自纠会不会成为下一轮 Agent 训练/框架的重点:能否引入「结果校验层」「对工具返回的不信任默认」来缓解错误传播,是比单纯扩大模型更直接的杠杆。
  • 头部模型(Gemini-3.1-Pro 的 77%、EGT 精度 91%)的优势能否复制到非零售域:这套强相关(探索度↔准确率)在金融、运维等高风险垂类是否依然成立。
  • 社区基于已开源的代码与数据集做复现与扩展的进展:是否有人补上完整的逐阻塞-逐模型数值表,以及把工具池规模继续往上推(>1665)后曲线如何变化。
  • 「更准的探索」会不会催生新的推理预算分配/止损策略:在平均 25 轮、上限 100 轮的约束下,如何用更少轮数达到更高准确率,将是工程落地的真正战场。
  • 其它实验室是否会跟进类似的「可控失败注入」评测范式——把工具的缺失/失败/误导做成可分级旋钮,正在成为衡量 Agent 鲁棒性的新标准动作。