EnterpriseClawBench:把 5291 条真实职场会话变成评测,给 Claude Code、Codex 直接打分

大多数 agent 榜单测的是「在干净的题库里写对一道题」,但企业里真正的活儿是:读一堆乱七八糟的文件、调几个内部工具、最后交出一份能用的业务产出物。2026 年 6 月 22 日提交、6 月 23 日登上 HuggingFace 当日论文榜(获 80 个赞)的 EnterpriseClawBench,把这件难测的事做了一遍:作者从真实企业 agent 会话里回收出 5291 条原始任务实例,经隐私脱敏与可复现化处理后,凝练成 852 个带夹具(fixtures)、重写提示词、角色类别、技能子类、硬规则与语义评分卡的标准任务,并切出一个 120 题、经人工逐条审核的 Lite 子集。

最扎眼的结论是:这个榜远没有被刷爆。在 120 题的 Lite 子集上,表现最好的组合 Codex + GPT-5.5 也只拿到 0.663;在完整 852 题、统一用 DeepAgents 这个 harness 跑的成绩里,GPT-5.5 为 0.766、Sonnet 4.6 为 0.749、Haiku 4.5 为 0.632,而轻量的 GPT-4.1-mini 直接掉到 0.336。论文一句话点题:企业 agent 评测不该把表现「塌缩成一个单一分数」,而要同时报告 harness-模型组合、产物交付、视觉质量、成本、运行时长和技能迁移行为。

发生了什么

这篇论文来自 Frontis.AI(Horizon Research),作者署名包括 Jincheng Zhong、Weizhi Wang、Che Jiang、Kaiyan Zhang(通讯)等。它要解决的痛点是:现有 agent 评测大多用人造题目,与真实职场脱节;而真实会话又夹带大量企业机密,既不能直接公开,也难以复现。EnterpriseClawBench 的做法是搭一条「隐私保护流水线」,把真实会话改造成可反复运行的评测任务——

回收 + 重写:从原始会话恢复任务上下文,补齐运行所需的夹具文件,重写提示词去除敏感信息;
角色化:抽象出 7 个角色大类,再展开为 45 个角色专属的技能子类(skill subclasses),覆盖不同岗位会让 agent 干的活;
双层打分:每个任务配一套「硬规则(hard rules)」做客观判定,再叠加「语义评分卡(semantic rubrics)」由评判模型从多维度打分;
不公开数据:因为会话含内部内容,基准数据本身不发布;论文与开源仓库给出的是「构建协议 + 评测协议」这一可复用资产。

它评测的对象不是「模型」而是「完整 agent 系统」,即 harness × 模型 的组合。被测 harness 涵盖 Claude Code、Codex、DeepAgents、Hermes、OpenClaw 等,论文给出的是 32 个 harness-模型组合 的横向对比;模型侧则覆盖 GPT-5.5、Sonnet 4.6、Haiku 4.5、Kimi K2.6、GPT-4.1-mini 等。配套开源仓库 FrontisAI/EnterpriseClawBench 放出了脱敏样例会话、构建流水线、本地评测流水线、沙箱协议、一次参考运行(reference run)和聚合后的排行榜数据。

关键数据 / 技术细节

完整 852 题、统一在 DeepAgents harness 下的主榜如下。除总分外,论文把分数拆成文本(Text)、视觉(Visual)、规则(Rule)三路,能看出短板究竟在哪:

模型(DeepAgents harness)	总分	文本 Text	视觉 Visual	规则 Rule
GPT-5.5	0.766	0.813	0.642	0.959
Sonnet 4.6	0.749	0.793	0.634	0.957
Haiku 4.5	0.632	0.666	0.542	0.963
GPT-4.1-mini	0.336	0.383	0.213	0.817

几个值得注意的点:视觉一路普遍是短板——即便最强的 GPT-5.5,视觉也只有 0.642,远低于其文本的 0.813;而规则一路所有头部模型都在 0.95+,说明「按死规矩交付」相对容易,真正拉开差距的是文本质量与视觉产物。

harness 对成绩的影响同样巨大。论文强调表现「会随所用 harness 大幅变化」:Sonnet 4.6 在多数 harness 下稳定在 0.62–0.64 区间,但换到 Hermes 下骤降到 0.458。这意味着同一个模型,套不同的 agent 外壳,落地效果可能差出十几个百分点——这正是论文反对「单一分数」的核心论据。

至于这套自动评分到底可不可信,作者做了一致性核验:

评判可靠性指标	数值	样本
文本路相关性 ρ	0.918	1853 例
视觉路相关性 ρ	0.866	1428 例
人工审核文本 MAE	0.134 / Spearman 0.790	48 个数据包
人工审核视觉 MAE	0.303 / 排序相关为负	48 个数据包

文本路评判与人工高度一致(ρ=0.918、MAE 仅 0.134),但视觉路是真不行:人工审核中视觉 MAE 高达 0.303,且与人工排序相关性为负——评判模型对视觉产物的判断,某种程度上与人类背道而驰。作者据此明确承认「多模态产物评测尚不成熟」。

论文还专门测了「技能迁移」:让一个模型当「技能创建者」生成前端页面技能,再交给其它模型当「消费者」使用。结果高方差且看脸:GPT-5.5 作为创建者带来 +0.0681 的增益,Kimi K2.6 +0.0518,而 Haiku 4.5 最差,为 −0.0941(即用了它产出的技能反而更糟)。增益取决于创建者质量、消费者行为,以及二者是否「合得来」。

为何重要

过去一年 agent 评测的主流叙事是 SWE-bench 一类「修真实 GitHub issue」的代码任务,以及各种工具调用、网页操作榜单。它们共同的问题是:题目是公开的、可被针对性优化的,且大多只测一个干净的技术动作。EnterpriseClawBench 把战场挪到了「真实职场会话」,并刻意做了两件事——不公开数据(防过拟合、防刷榜)与多维不塌缩成单分(逼着大家正视 harness、成本、视觉这些被单分掩盖的维度)。

它的几个发现对从业者很有现实意义。其一,最强组合 Lite 仅 0.663、全集最高 0.766,榜远未饱和——说明「企业里把活儿真正交付干净」这件事,当前最强的 agent 系统也只做到六七成,落地预期需要校准。其二,harness 比想象中更要命:Sonnet 4.6 在 Hermes 下从 0.62+ 掉到 0.458,等于在说「选错外壳,顶级模型也废一半」,这把评估单位从「模型」彻底拉到了「系统」。其三,视觉/多模态产物的自动评测目前不可靠,任何号称「自动评 agent 出图、出页面质量」的方案都要打个问号。

值得一提的是,该榜单里 Claude 家族(Sonnet 4.6、Haiku 4.5)与 GPT-5.5 在 DeepAgents 下贴得很近(0.749 vs 0.766),Sonnet 4.6 在多数 harness 下也表现稳健;Anthropic 的 Claude Code 本身就是被测 harness 之一。对正在选型「agent 外壳 + 模型」组合的企业买方,这类「系统级」对比比单看模型榜更有参考价值。

早报观点

EnterpriseClawBench 最有价值的不是那张排行榜,而是它的方法论姿态:承认真实企业任务无法公开、承认单一分数会骗人、承认多模态评判还不成熟。这三点恰恰是当下 agent 评测最容易回避的。它把评估单位从「模型」改成「harness × 模型」,等于公开承认——今天 agent 的能力,有相当一部分是工程外壳给的,而不是底座模型给的。Sonnet 4.6 在 Hermes 下崩到 0.458 这个数据,值得每个在做 agent 选型的人贴在墙上。

但要给几个 caveat。第一,数据不公开是双刃剑:它防住了刷榜,却也让外部无法独立复现这 852 题,只能信任作者放出的「参考运行」和聚合排行榜数据。一个无法被第三方重跑的榜单,权威性天然打折,我们对绝对分数应保留余地——本文所有数字均来自论文方与其开源仓库的自述,属单一机构来源,尚无独立复现交叉验证。第二,这是 6 月 22 日新提交的工作,arXiv 编号(2606)与日期均指向极新的发布,社区评审与复现都还没跟上;HuggingFace 80 个赞说明关注度不低,但热度不等于结论被验证。第三,视觉路评判与人工排序相关为负——这等于作者亲口说「我的视觉分先别太当真」,那么榜单里 Visual 一列与受其影响的总分,严格说都带着这层不确定性,横向比较时要小心。

我的判断:把它当成一面「照妖镜」用——用来戳破「换个模型分数就涨」的幻觉、提醒大家 harness 和成本同样关键——价值很大;但若把 0.766、0.663 这些绝对数字当成可移植的硬指标到处引用,就高估了一个不可复现、且自承视觉评判不靠谱的新榜单。

接下来看什么

是否会有可公开复现的子集或第三方复现:数据不公开是最大软肋,看作者后续会不会放出更大规模的脱敏 Lite 子集,或有独立团队基于其协议重建可比基准。
完整 32 个组合的明细何时披露:目前公开的多为头部组合,Claude Code、OpenClaw 等 harness 在不同模型下的完整矩阵,以及成本/运行时长维度的对比,值得追。
视觉评判能否被修好:多模态产物评分是公认难点,看是否有更可靠的视觉评判方案出现来填补这个负相关的坑。
harness 厂商的反应:Sonnet 4.6 在 Hermes 下崩盘这类结果,可能促使各 agent 框架团队针对性优化;关注 DeepAgents、Claude Code、Codex 等是否据此调整。
“系统级评测”会否成为新范式:若更多榜单开始按 harness × 模型报告,而非只发模型分,这将实质改变企业 agent 选型与厂商竞争的叙事方式。