EnterpriseClawBench:用真实职场会话造基准,最强 agent 也只过 0.766

一份名为 EnterpriseClawBench 的论文这一天出现在 HuggingFace Papers 与 arXiv(编号 2606.23654)上,做了一件和大多数 agent 基准不一样的事:它不靠人工编造任务,而是从一家百人以上 AI 初创公司真实的工作会话档案出发,经自动化流水线把 5291 条原始任务实例蒸馏成 852 个可复现任务。评测 32 种 harness-模型组合后,全集最强的 GPT-5.5 也只拿到 0.766,人工精审的 120 任务 Lite 子集顶分更是仅 0.663。结论很直白:把 agent 放进真实职场,没有一套组合接近”做得完”。

更刺眼的发现不在分数榜本身,而在一个被很多评测忽略的变量上——同一个模型,换个 harness(运行时外壳),分数能差出一大截。Claude 系列在 Hermes 这套 harness 下,从其他外壳里的 0.62-0.64 骤降到 0.458,而论文认定这是”harness 与模型的兼容性问题,而非模型本身的能力差距”。

发生了什么

论文作者来自 Horizon Research 与 Frontis.AI,数据取自一家员工超过百人的 AI 初创公司在 2026 年 3 月至 5 月的工作会话。所谓”企业 agent”,指的是越来越多地直接在工作区里干活的智能体——读取异构文件、调用工具、交付业务产物(文档、表格、图表、代码等)。作者认为,这类 agent 此前缺一个”从真实工作里长出来”的评测口径,于是把内部会话档案当作矿藏。

构造不是简单导出对话,而是一条多阶段流水线:筛选 → fixture(任务上下文/文件环境)恢复 → 自包含改写(把依赖具体内部语境的 prompt 重写成可独立运行的任务)→ 分类法分配 → 硬规则生成 → 语义评分细则生成。最终每个任务都带着可复现的 fixture、改写过的 prompt、角色类别、技能子类、一组硬规则(可机器判定的客观约束)和一份语义评分 rubric(交给评判模型打分的细则)。角色维度从 7 个角色类别展开到 45 个技能子类,覆盖营销、财务/运营等真实岗位的工作面。

关键的克制之处在于:数据不公开。因为原始会话含大量内部企业内容,作者明确表示”we do not release the benchmark data”,GitHub 仓库只放了一个脱敏的公开会话样例、完整的构造流水线、本地评测流水线、sandbox 协议,以及一份参考运行示例和聚合后的排行榜数据/可视化。换句话说,这篇论文真正想交付的可复用资产是”构造方法 + 评测协议”,而不是一份可以刷榜的数据集。这点和 SWE-bench、GAIA 这类公开数据的基准是根本不同的取舍。

关键数据 / 技术细节

先看规模和构造的几个硬数字:

指标	数值	说明
原始任务实例 TaskInstances	5291	从真实会话抽取的原始素材
最终可复现任务	852	经流水线蒸馏、配齐 fixture/rubric 后
Lite 子集	120	经人工审核的精选子集
角色类别	7	顶层岗位分类
技能子类	45	角色类别向下展开的细分技能
harness-模型组合	32	本轮评测覆盖的组合总数

再看分数。全集 852 任务在 DeepAgents 这套 harness 下的代表性结果如下(分数为 0-1 区间,越高越好;Text/Visual/Rule 分别对应文本评判、视觉评判、硬规则三个维度):

模型	总分	Text	Visual	Rule
GPT-5.5	0.766	0.813	0.642	0.959
Sonnet 4.6	0.749	0.793	0.634	0.957
Haiku 4.5	0.632	0.666	0.542	0.963
GPT-4.1-mini	0.336	0.383	0.213	0.817

几个细节值得拎出来:

硬规则维度(Rule)所有模型都接近满分(0.95+),哪怕是垫底的 GPT-4.1-mini 也有 0.817。这说明”满足客观可判定的约束”对今天的强模型不算难;真正拉开差距的是文本质量,尤其是视觉产物质量(Visual)——连第一名 GPT-5.5 的 Visual 也只有 0.642,Haiku 4.5 更是掉到 0.542。
Lite 子集顶分仅 0.663,配置是 Codex 搭配 GPT-5.5。Lite 是人工精审的子集,顶分比全集还低,进一步说明真实企业任务”远未饱和”。

最有方法论价值的,是 harness 维度的发现。论文把它列为”最显著的模式”:

运行环境(harness)	Sonnet 4.6 总分
Claude Code / DeepAgents / OpenClaw	0.62-0.64
Hermes	0.458

作者给出的解释是运行时不匹配:Claude 系模型的工作方式高度依赖”主动探测环境 + 多步自我修复”——先试探、看反馈、再纠错;而 Hermes 这套 harness 常通过审批检查(approval check)拦住这类操作,等于把 Claude 擅长的循环掐断了。因此这是”harness-模型兼容性问题,而不是模型单方面的能力差距”。

其余几个结论也都指向”评测要分维度,不能折叠成单分”:

成本-分数呈对数式递减:花更多钱(更贵的模型/更多 token)能换来更高分,但过了中等成本之后,边际收益快速衰减。
角色难度不均:营销(marketing)和财务/运营(finance/operations)类任务最难;GPT-5.5 是最稳健的”通才”。
技能迁移高方差:作为”技能创造者”的能力差异很大,GPT-5.5 最强(+0.0681),Haiku 4.5 最弱(-0.0941)。
评判可靠性两极:文本评判与人类打分对齐良好(Spearman 相关系数 0.790),但视觉评判明显不成熟(MAE 0.303,且与人类呈负相关),暴露出”对多模态产物的自动评测尚不成熟”这个硬伤。

说明:以上数字均来自论文 HuggingFace/arXiv 页面与 GitHub 仓库描述。因数据集不公开,外部无法独立复现这些分数;GitHub README 也未在正文直接列出分数表,仅以排行榜可视化呈现,具体数值以论文披露为准。这是单一研究团队的自报结果,引用时应带此 caveat。

为何重要

这篇论文戳中的是 agent 评测当下最尴尬的两个空白。

第一,真实性的空白。 主流 agent 基准要么是合成任务(人为设计、容易被针对性优化),要么集中在编程(SWE-bench 等),离”普通公司员工每天用 agent 干的杂活”很远。EnterpriseClawBench 直接从真实会话里长任务,虽然因隐私不能公开,但它证明了一条路径:用真实工作流当数据源,再用自动化流水线把”私有、零散、不可复现”的会话改造成”可复现、可评分”的任务。这套流水线本身就是可迁移的方法论资产。

第二,“模型即一切”叙事的空白。 行业习惯把 agent 能力等同于模型能力,排行榜也都按模型排。但真实部署里,agent = 模型 + harness(外壳/运行时/工具调用与审批逻辑)。这篇论文用 Claude 在 Hermes 下暴跌 30% 的数据,具体地展示了:同一个模型,换个运行时,可用性能差出一大截。对企业买方,这意味着选型不能只看模型榜单分数,得看”模型 × 你实际用的那套 harness”的组合表现——而这恰恰是公开榜单几乎从不报告的。

第三,它给”评测该报什么”提了个更高的标准。 论文主张企业 agent 评测必须报告多维度指标——harness-模型组合、产物交付、视觉质量、成本、运行时间、技能迁移——而不是折叠成一个总分。这和”视觉评判与人类负相关”的发现互为印证:如果你只看一个总分,就会把”文本写得好但图表做得差”这种真实缺陷洗掉。

早报观点

我们的判断:这篇论文最有价值的不是那张分数榜(0.766 这个数字过几个月就会被刷新),而是它把**“harness 是一等公民”这件事用硬数据摆上了台面。长期以来,模型厂商的 demo 和榜单都在做一件隐蔽的事——把模型放进最适配它的那套 harness**里跑分,然后把成绩归功于模型。Claude 在 Hermes 下从 0.64 掉到 0.458,等于撕开了这层包装:你买的不是一个模型的能力,你买的是”模型 + 运行时”的联合体,而后者的设计(尤其是审批/拦截逻辑)可能把一个强模型废掉三成。对企业选型,这是比”哪个模型分高”重要得多的认知。

但要给这篇论文打几个 caveat。其一,数据不公开是双刃剑。 它换来了真实性和隐私合规,却也让结果无法被第三方独立复现——我们只能信任作者自报的分数。当一个基准既不公开数据、又给出对特定厂商(Claude/Hermes 组合)不利的具体结论时,读者有理由保持一份审慎:这不是说作者有偏见,而是说”不可复现的排行榜”天然缺一层制衡。其二,样本来自单独一家百人 AI 初创公司,它的工作流未必能代表传统行业、大型企业或非技术团队;“营销和财务最难”这类结论,也可能是这家公司任务分布的产物,而非普遍规律。其三,Hermes 暴跌究竟是”兼容性问题”还是”能力问题”,边界其实模糊——论文把它归为前者,但”模型依赖主动探测、harness 一拦就废”也可以解读为模型鲁棒性不足。同一组数据,归因不同,对厂商的含义截然相反。

真正被这篇论文照亮、却容易被忽略的点是:视觉产物评测的塌方。文本评判 Spearman 0.790 已经能用,但视觉评判与人类负相关——这意味着今天所有”agent 自动做 PPT/图表/海报”的能力,我们其实没有可靠的自动标尺去衡量好坏。在 agent 越来越多被用来产出视觉产物的当下,这是个比”总分 0.766”更值得警惕的结构性缺口:能力可能在涨,但我们对它涨没涨的判断手段是瞎的。

接下来看什么

构造流水线的复用度:这篇论文的真正贡献是”construction + evaluation protocol”。看接下来是否有其他团队用同一套流水线,在自己的私有会话上造出可比的企业基准——如果能,它就成了方法论标准;如果没人跟进,它就只是一份孤本报告。
harness 维度会不会进主流榜单:看 LMArena、各家官方榜单是否开始按”模型 × harness”组合报告,而不是只报模型分。Claude/Hermes 这个反例若被更多组合验证,会逼着行业改口径。
Claude × Hermes 的归因争议:看 Anthropic 或 Hermes 维护方是否回应——是承认 harness 拦截逻辑需要调整,还是反驳”模型鲁棒性应对得了审批检查”。这场归因之争的走向,决定了”兼容性问题”这个定性能不能立住。
视觉评测的补课:看是否出现与人类对齐更好的视觉评判方法。这是当前 agent 产物评测最大的盲区,谁先把它做可靠,谁就握住了多模态 agent 的标尺。
数据不公开基准的接受度:这是个先例——一个有影响力的结论建立在不可复现的数据上。看社区是把它当可信参考,还是要求”要么公开数据、要么降低结论强度”。这关系到未来”隐私 vs. 可复现”的取舍范式。