研究论文

PlanBench-XL:把前沿模型扔进 1665 个工具的「迷宫」,长程规划集体露怯

1665 个工具、平均 25 轮、最短解 5-9 步:一个故意把工具「藏起来、弄坏、放干扰」的长程规划压力测试,把前沿模型按在了 11%。

2026年6月23日 · 周二 深度报告 高置信 重要度 4/5

伊利诺伊大学厄巴纳-香槟分校(UIUC)Heng Ji 与 Dilek Hakkani-Tür 团队提出了一个专门「为难」智能体的新基准 PlanBench-XL。它的设定刻意贴近真实:不给模型一份现成的工具清单,而是把 1665 个工具散落在一个零售业务的「迷宫」里,模型必须一边检索发现可用工具、一边调用它们去挖出中间证据,再据此决定下一步,最终完成 327 个零售任务。一个任务平均要打 约 25 轮交互,最短的合法解法链也要 5 到 9 次工具调用。结果是,即便是最强的前沿模型,在最干净的设定下也只勉强及格:GPT-5.4 无干扰准确率仅 51.90%;而当研究者打开「阻塞」开关、把通往答案的捷径一条条堵死后,GPT-5.4 直接跌到 11.36%。论文的结论一句话:在大规模工具生态里做长程规划,前沿模型远没准备好

发生了什么

过去评测智能体「会不会用工具」,大多是把十几个、几十个工具的说明书一次性塞进 prompt,让模型挑着用——本质上是「看着菜单点菜」。但真实的智能体环境(企业内部上千个 API、MCP 工具生态、检索增强的 agent 框架)根本塞不下:工具太多,模型只能先检索、再决定调用哪个。PlanBench-XL 要测的正是这个被以往基准跳过的环节——当工具可见性被检索这道关卡限制住时,模型还能不能规划出一条多步路径

它的核心机制是把整个零售域建模成一张状态图(state graph)。每个工具由「输入数据类型 → 输出数据类型」的配对定义(比如「订单号 → 退款状态」),全域共 56 种数据类型。模型从任务给定的初始数据类型出发,每成功调用一个工具,就把它的输出类型并入当前已知状态,逐步逼近目标所需的数据类型。这套形式化让研究者能精确枚举出「从起点到答案最短要几步」,从而只保留至少需要 5 次不同工具调用的任务,把简单题筛掉,确保测的是「长程」。

真正狠的设计是那个可选的「阻塞机制」(blocking)。研究者会主动破坏通往答案的工具,模拟现实里工具「缺失、失效、被干扰」三种常见故障,逼模型在运行时识别死路、临场改道:

  • 显性失效(Explicit Failure):工具直接报错,比如 error: endpoint unavailable——错误信号明确。
  • 隐性失效(Implicit Failure):工具照常返回,但悄悄给出违背其文档行为的无用值(论文举例 refund_status=tuna),没有任何报错。
  • 语义误导(Semantically Misleading):用一个功能相近但不对的工具顶替(比如把 get_refund_status 换成 get_order_status),看起来像能用的替代品。

阻塞强度由「block ratio」分档控制——从 no-block、0.2、0.4、0.6、0.8 一路加码,最极端的是只留一条可行路径(1 Path),并进一步细分为只保留最短/最长/随机那一条合法解法链。换句话说,PlanBench-XL 不只看模型「顺风时跑多快」,更看它在「被人为断路」后能不能自己找到绕行路线。

关键数据 / 技术细节

研究者评测了 10 个主流模型(闭源 + 开源)。在最干净的默认设定(无阻塞)下,成绩拉出了一条触目惊心的断崖:头部 Gemini 与 DeepSeek 能打,GPT-5.4 与 Gemini-3.5-Flash 在及格线附近,而一众中小开源模型几乎全军覆没

模型准确率EGT 精度(选对工具类型)平均轮数无效调用率 ITCR
Gemini-3.1-Pro77.06%91.47%19.550.68%
DeepSeek-V4-Flash63.08%65.57%31.418.27%
Gemini-3.5-Flash52.19%85.29%57.872.94%
GPT-5.451.90%72.92%22.926.28%
Llama-3.3-70B-Instruct18.96%59.67%19.1321.47%
GPT-5.4-Mini3.07%71.25%10.8151.71%
Qwen3-32B2.75%62.36%12.0310.05%
Qwen3-14B0.92%47.77%35.743.94%
Qwen3-8B0.00%35.31%25.656.11%
Llama-3.1-8B-Instruct0.00%41.33%21.6218.03%

几个细节值得拆开看。第一,领先者的优势主要来自「选得准」:Gemini-3.1-Pro 的 EGT 精度(执行的工具里属于正确数据类型的比例)高达 91.47%,几乎不浪费调用,无效调用率只有 0.68%;而 GPT-5.4-Mini 的无效调用率高达 51.71%——一半以上的调用是结构或流程上的废动作(用了没检索到的工具、参数对不上)。第二,轮数多 ≠ 做得好:Gemini-3.5-Flash 平均要打 57.87 轮(远超 GPT-5.4 的 22.92 轮)才换来 52.19% 的准确率,反映出明显的「广撒网式」低效探索。第三,论文做了相关性分析,发现探索到的新数据类型数量(Mean EDT)与准确率高度正相关(Pearson r=0.902),选对工具类型的精度也强相关(r=0.781)——这佐证了「能不能系统地把工具生态探索清楚」是成败关键。

而阻塞机制一开,差距进一步被放大。以 GPT-5.4 为例,只保留一条可行路径(1 Path)时准确率约腰斩到 30%;当那条唯一的路还被设成「最长的恢复路径」(最难绕)时,骤降至 11.36%——相比无干扰的 51.90%,等于损失了约 78% 的能力。三种故障里,隐性失效最致命:它让模型的「不可信输入拒绝率」(UIRR,即识别出某个参数取自被污染的工具响应而拒绝调用)被推到最高的 11.99%(显性失效 9.67%、语义误导 9.89%)——因为没有报错,模型察觉不到自己已经踩进了坑。

展开:失败模式归因与「探索还是选择」之辩

论文对失败案例做了细粒度归因,得出两个反直觉但重要的结论:

1. 瓶颈是「选择」而非「发现」。 在默认设定的失败案例里,有用的替代工具其实早已被检索到了——比例高达 78.0%(阻塞设定下也有 71.1%)。也就是说,模型并不是「找不到」正确工具,而是「找到了却没选它」。这把锅从「检索能力不足」甩回到了「规划与决策能力不足」。

2. 失败时各家「认怂」方式不同。 主导性的失败模式是「不可恢复的漂移」(Irrecoverable Drift)——GPT-5.4 占 72.4%、Gemini-3.5-Flash 占 71.3%。一旦走偏就再也回不来。终止时的行为也分化明显:

模型典型「放弃」方式默认设定占比
GPT-5.4直接投降、声明无法完成77.3%
Llama-3.3-70B硬编造一个错误值交差81.7%
Gemini-3.5-Flash把检索搜到精疲力竭90.8%

3. 隐性失效会被「将错就错」。 当工具悄悄返回错误值时,GPT-5.4 有 55.9%、Llama 有 75.5% 的情况会直接复用这个被污染的值继续往下走(显性失效时这一比例为 0%)——再次印证「没有报错信号,模型就识别不出自己被坑」。

4. 强制探索收效甚微。 研究者尝试强制模型多检索,但「多数模型的提升不到 5 个百分点」——说明问题不在「探索得不够」,而在探索之后的整合与规划。

环境参数:最大交互轮数 100,单次检索返回上限 30 个工具,全局随机种子 42;检索支持前向、后向与「输入-输出条件」三种方式。代码计划以 MIT 协议开源,数据集以 Creative Commons 协议发布。

为何重要

把这篇论文放进 2026 年「智能体元年」的语境里,它的价值不在「又刷出一个低分」,而在第一次把「大规模工具生态 + 长程规划 + 故障鲁棒性」这三个真实痛点拧在一个可量化、可复现的基准里,并给出了一个冷静的体检结果。

第一,它戳破了「工具调用已解决」的乐观。 过去一年,各家都在秀智能体——OpenAI 的 Codex、Anthropic 的 agentic 工作流、各类 MCP 生态——给人的印象是「会用工具」已是基本功。但那些 demo 大多是「几十个工具、几步就成」的短任务。PlanBench-XL 把工具数量拉到 1665 个、把路径拉到 5-9 步起步、平均 25 轮,前沿模型立刻原形毕露:最强的也就 77%,主流的 GPT-5.4 刚过半。这说明**「会调一个工具」和「在上千个工具里规划一条多步路径」是两种能力**,后者远未成熟。

第二,它把诊断的颗粒度做到了「为什么失败」而非只看「失败率」。 「78% 的失败案例里正确工具早已被检索到」这个发现尤其关键——它把行业的注意力从「做更好的检索 / RAG」拉回到「做更好的规划与决策」。很多团队在优化 agent 时下意识去堆检索召回率,但 PlanBench-XL 的数据暗示:召回往往不是瓶颈,模型在一堆候选里挑错、走偏后回不来才是。

第三,「隐性失效最致命」对生产环境是一记警钟。 现实中的 API 不会总是优雅地报错——它们会超时、返回脏数据、给出过期结果。PlanBench-XL 用 refund_status=tuna 这种荒诞例子证明:只要没有显式错误信号,模型就大概率察觉不到自己已经在用脏数据,并将错就错地把它传递下去。对任何想把 agent 接进真实业务系统的团队,这意味着「容错」不能只靠模型自觉,必须在框架层做校验与护栏。

早报观点

先说这篇论文最该被记住的一点:它测的是「长程 + 大规模 + 会出故障」的复合难度,而不是单一能力。 把 GPT-5.4 的 51.90% 单拎出来说「前沿模型不及格」是不公平的——在干净、工具量适中的设定下,它的工具调用能力其实相当强。真正把分数压下去的,是「上千工具里检索 + 5-9 步链式规划 + 中途被人为断路」这三重压力叠加。所以更准确的解读是:当前模型的「工具调用」是局部可靠的,但「长程工具规划」的可靠性会随路径变长、环境变脏而非线性崩塌。 这恰恰是把 agent 从 demo 推向生产时最先撞上的墙。

第二个不该被忽视的信号,是开源模型的断崖。Qwen3-8B、Llama-3.1-8B-Instruct 直接挂零,Qwen3-32B 也只有 2.75%。这不一定说明这些模型「笨」,更可能是它们没有被针对性地训练过「边检索边规划」这种交互范式——它们的无效调用率(Llama-3.1-8B 高达 18.03%)说明很多失败是「格式 / 流程没走对」,而非「想不明白」。这提醒我们:agent 能力高度依赖后训练时是否注入了相应的交互数据,通用 benchmark 上的强模型,未必是 agent 场景里的强模型。这也解释了为什么 Gemini-3.1-Pro 能甩开同代对手——它在「选对工具」这件事上(EGT 精度 91.47%)有质的领先。

需要保留的 caveat 有两条。其一,这是 UIUC 团队自建、自测的基准,数据集与代码虽承诺开源(MIT + CC),但截至论文发布尚未见到独立第三方在同一套环境上的复现,具体模型分数应被视为「该设定下的一次快照」,而非定论。其二,单一域(零售)+ 程序化构造的工具图,与真实企业里语义模糊、文档不全、相互纠缠的工具生态仍有距离——状态图能精确枚举最短路,恰恰说明这个环境比真实世界「干净」。所以这些分数大概率是真实任务难度的乐观下界:现实只会更难,不会更易。

我的总判断:PlanBench-XL 是 2026 上半年最值得 agent 从业者认真读的诊断性工作之一。它没有标题党,而是用一个设计精巧的「迷宫」把「智能体在大规模工具生态下做长程规划」这件事的真实水位标了出来——头部模型能及格但谈不上可靠,故障一来就崩,而瓶颈在「选择与规划」而非「检索」。对工程团队,真正的启示不是「模型还不行所以别做 agent」,而是「别把可靠性押在模型自觉上」:在框架层做工具校验、脏数据拦截、路径回溯,把 agent 当成一个需要护栏的、会在长路径上走神的执行体来设计。谁先认清这一点,谁的 agent 就先能上生产。

接下来看什么

  • 第三方复现与排行榜:论文承诺以 MIT 开源代码、CC 协议放数据。盯住社区能否在同一套环境上复现这些分数,以及是否会出现公开 leaderboard——自建自测的基准,独立复现是可信度的试金石。
  • 下一代模型能否补上短板:重点看新一代模型(传闻中的 GPT-5.5 / Opus 系列后续)能否把无阻塞准确率推过 80%,更关键的是能否扛住阻塞——把 GPT-5.4 那条「11.36%」的曲线拉起来,才是真进步。
  • 「选择 vs 探索」的优化方向:既然 78% 的失败是「找到了没选对」,值得关注 agent 框架会不会从「堆检索召回」转向「强化规划 / 决策」(如显式的路径搜索、回溯、自我校验机制)。
  • 故障鲁棒性成为新维度:隐性失效最致命这一结论,可能推动更多基准把「脏数据 / 静默故障」纳入标准评测项。留意后续 agent 评测是否普遍加入「容错」维度,而不只比拼顺风成绩。
  • 从单域走向多域:PlanBench-XL 目前限于零售域和程序化工具图。下一个值得期待的,是有人能否在「多域、语义模糊、文档不全」的更真实工具生态里复现类似的长程压力测试——那才是对生产级 agent 更狠的拷问。