一份名为 EnterpriseClawBench 的论文这一天出现在 HuggingFace Papers 与 arXiv(编号 2606.23654)上,做了一件和大多数 agent 基准不一样的事:它不靠人工编造任务,而是从一家百人以上 AI 初创公司真实的工作会话档案出发,经自动化流水线把 5291 条原始任务实例蒸馏成 852 个可复现任务。评测 32 种 harness-模型组合后,全集最强的 GPT-5.5 也只拿到 0.766,人工精审的 120 任务 Lite 子集顶分更是仅 0.663。结论很直白:把 agent 放进真实职场,没有一套组合接近”做得完”。
更刺眼的发现不在分数榜本身,而在一个被很多评测忽略的变量上——同一个模型,换个 harness(运行时外壳),分数能差出一大截。Claude 系列在 Hermes 这套 harness 下,从其他外壳里的 0.62-0.64 骤降到 0.458,而论文认定这是”harness 与模型的兼容性问题,而非模型本身的能力差距”。
发生了什么
论文作者来自 Horizon Research 与 Frontis.AI,数据取自一家员工超过百人的 AI 初创公司在 2026 年 3 月至 5 月的工作会话。所谓”企业 agent”,指的是越来越多地直接在工作区里干活的智能体——读取异构文件、调用工具、交付业务产物(文档、表格、图表、代码等)。作者认为,这类 agent 此前缺一个”从真实工作里长出来”的评测口径,于是把内部会话档案当作矿藏。
构造不是简单导出对话,而是一条多阶段流水线:筛选 → fixture(任务上下文/文件环境)恢复 → 自包含改写(把依赖具体内部语境的 prompt 重写成可独立运行的任务)→ 分类法分配 → 硬规则生成 → 语义评分细则生成。最终每个任务都带着可复现的 fixture、改写过的 prompt、角色类别、技能子类、一组硬规则(可机器判定的客观约束)和一份语义评分 rubric(交给评判模型打分的细则)。角色维度从 7 个角色类别展开到 45 个技能子类,覆盖营销、财务/运营等真实岗位的工作面。
关键的克制之处在于:数据不公开。因为原始会话含大量内部企业内容,作者明确表示”we do not release the benchmark data”,GitHub 仓库只放了一个脱敏的公开会话样例、完整的构造流水线、本地评测流水线、sandbox 协议,以及一份参考运行示例和聚合后的排行榜数据/可视化。换句话说,这篇论文真正想交付的可复用资产是”构造方法 + 评测协议”,而不是一份可以刷榜的数据集。这点和 SWE-bench、GAIA 这类公开数据的基准是根本不同的取舍。
关键数据 / 技术细节
先看规模和构造的几个硬数字:
| 指标 | 数值 | 说明 |
|---|---|---|
| 原始任务实例 TaskInstances | 5291 | 从真实会话抽取的原始素材 |
| 最终可复现任务 | 852 | 经流水线蒸馏、配齐 fixture/rubric 后 |
| Lite 子集 | 120 | 经人工审核的精选子集 |
| 角色类别 | 7 | 顶层岗位分类 |
| 技能子类 | 45 | 角色类别向下展开的细分技能 |
| harness-模型组合 | 32 | 本轮评测覆盖的组合总数 |
再看分数。全集 852 任务在 DeepAgents 这套 harness 下的代表性结果如下(分数为 0-1 区间,越高越好;Text/Visual/Rule 分别对应文本评判、视觉评判、硬规则三个维度):
| 模型 | 总分 | Text | Visual | Rule |
|---|---|---|---|---|
| GPT-5.5 | 0.766 | 0.813 | 0.642 | 0.959 |
| Sonnet 4.6 | 0.749 | 0.793 | 0.634 | 0.957 |
| Haiku 4.5 | 0.632 | 0.666 | 0.542 | 0.963 |
| GPT-4.1-mini | 0.336 | 0.383 | 0.213 | 0.817 |
几个细节值得拎出来:
- 硬规则维度(Rule)所有模型都接近满分(0.95+),哪怕是垫底的 GPT-4.1-mini 也有 0.817。这说明”满足客观可判定的约束”对今天的强模型不算难;真正拉开差距的是文本质量,尤其是视觉产物质量(Visual)——连第一名 GPT-5.5 的 Visual 也只有 0.642,Haiku 4.5 更是掉到 0.542。
- Lite 子集顶分仅 0.663,配置是 Codex 搭配 GPT-5.5。Lite 是人工精审的子集,顶分比全集还低,进一步说明真实企业任务”远未饱和”。
最有方法论价值的,是 harness 维度的发现。论文把它列为”最显著的模式”:
| 运行环境(harness) | Sonnet 4.6 总分 |
|---|---|
| Claude Code / DeepAgents / OpenClaw | 0.62-0.64 |
| Hermes | 0.458 |
作者给出的解释是运行时不匹配:Claude 系模型的工作方式高度依赖”主动探测环境 + 多步自我修复”——先试探、看反馈、再纠错;而 Hermes 这套 harness 常通过审批检查(approval check)拦住这类操作,等于把 Claude 擅长的循环掐断了。因此这是”harness-模型兼容性问题,而不是模型单方面的能力差距”。
其余几个结论也都指向”评测要分维度,不能折叠成单分”:
- 成本-分数呈对数式递减:花更多钱(更贵的模型/更多 token)能换来更高分,但过了中等成本之后,边际收益快速衰减。
- 角色难度不均:营销(marketing)和财务/运营(finance/operations)类任务最难;GPT-5.5 是最稳健的”通才”。
- 技能迁移高方差:作为”技能创造者”的能力差异很大,GPT-5.5 最强(+0.0681),Haiku 4.5 最弱(-0.0941)。
- 评判可靠性两极:文本评判与人类打分对齐良好(Spearman 相关系数 0.790),但视觉评判明显不成熟(MAE 0.303,且与人类呈负相关),暴露出”对多模态产物的自动评测尚不成熟”这个硬伤。
说明:以上数字均来自论文 HuggingFace/arXiv 页面与 GitHub 仓库描述。因数据集不公开,外部无法独立复现这些分数;GitHub README 也未在正文直接列出分数表,仅以排行榜可视化呈现,具体数值以论文披露为准。这是单一研究团队的自报结果,引用时应带此 caveat。
为何重要
这篇论文戳中的是 agent 评测当下最尴尬的两个空白。
第一,真实性的空白。 主流 agent 基准要么是合成任务(人为设计、容易被针对性优化),要么集中在编程(SWE-bench 等),离”普通公司员工每天用 agent 干的杂活”很远。EnterpriseClawBench 直接从真实会话里长任务,虽然因隐私不能公开,但它证明了一条路径:用真实工作流当数据源,再用自动化流水线把”私有、零散、不可复现”的会话改造成”可复现、可评分”的任务。这套流水线本身就是可迁移的方法论资产。
第二,“模型即一切”叙事的空白。 行业习惯把 agent 能力等同于模型能力,排行榜也都按模型排。但真实部署里,agent = 模型 + harness(外壳/运行时/工具调用与审批逻辑)。这篇论文用 Claude 在 Hermes 下暴跌 30% 的数据,具体地展示了:同一个模型,换个运行时,可用性能差出一大截。对企业买方,这意味着选型不能只看模型榜单分数,得看”模型 × 你实际用的那套 harness”的组合表现——而这恰恰是公开榜单几乎从不报告的。
第三,它给”评测该报什么”提了个更高的标准。 论文主张企业 agent 评测必须报告多维度指标——harness-模型组合、产物交付、视觉质量、成本、运行时间、技能迁移——而不是折叠成一个总分。这和”视觉评判与人类负相关”的发现互为印证:如果你只看一个总分,就会把”文本写得好但图表做得差”这种真实缺陷洗掉。
我们的判断:这篇论文最有价值的不是那张分数榜(0.766 这个数字过几个月就会被刷新),而是它把**“harness 是一等公民”这件事用硬数据摆上了台面。长期以来,模型厂商的 demo 和榜单都在做一件隐蔽的事——把模型放进最适配它的那套 harness**里跑分,然后把成绩归功于模型。Claude 在 Hermes 下从 0.64 掉到 0.458,等于撕开了这层包装:你买的不是一个模型的能力,你买的是”模型 + 运行时”的联合体,而后者的设计(尤其是审批/拦截逻辑)可能把一个强模型废掉三成。对企业选型,这是比”哪个模型分高”重要得多的认知。
但要给这篇论文打几个 caveat。其一,数据不公开是双刃剑。 它换来了真实性和隐私合规,却也让结果无法被第三方独立复现——我们只能信任作者自报的分数。当一个基准既不公开数据、又给出对特定厂商(Claude/Hermes 组合)不利的具体结论时,读者有理由保持一份审慎:这不是说作者有偏见,而是说”不可复现的排行榜”天然缺一层制衡。其二,样本来自单独一家百人 AI 初创公司,它的工作流未必能代表传统行业、大型企业或非技术团队;“营销和财务最难”这类结论,也可能是这家公司任务分布的产物,而非普遍规律。其三,Hermes 暴跌究竟是”兼容性问题”还是”能力问题”,边界其实模糊——论文把它归为前者,但”模型依赖主动探测、harness 一拦就废”也可以解读为模型鲁棒性不足。同一组数据,归因不同,对厂商的含义截然相反。
真正被这篇论文照亮、却容易被忽略的点是:视觉产物评测的塌方。文本评判 Spearman 0.790 已经能用,但视觉评判与人类负相关——这意味着今天所有”agent 自动做 PPT/图表/海报”的能力,我们其实没有可靠的自动标尺去衡量好坏。在 agent 越来越多被用来产出视觉产物的当下,这是个比”总分 0.766”更值得警惕的结构性缺口:能力可能在涨,但我们对它涨没涨的判断手段是瞎的。
接下来看什么
- 构造流水线的复用度:这篇论文的真正贡献是”construction + evaluation protocol”。看接下来是否有其他团队用同一套流水线,在自己的私有会话上造出可比的企业基准——如果能,它就成了方法论标准;如果没人跟进,它就只是一份孤本报告。
- harness 维度会不会进主流榜单:看 LMArena、各家官方榜单是否开始按”模型 × harness”组合报告,而不是只报模型分。Claude/Hermes 这个反例若被更多组合验证,会逼着行业改口径。
- Claude × Hermes 的归因争议:看 Anthropic 或 Hermes 维护方是否回应——是承认 harness 拦截逻辑需要调整,还是反驳”模型鲁棒性应对得了审批检查”。这场归因之争的走向,决定了”兼容性问题”这个定性能不能立住。
- 视觉评测的补课:看是否出现与人类对齐更好的视觉评判方法。这是当前 agent 产物评测最大的盲区,谁先把它做可靠,谁就握住了多模态 agent 的标尺。
- 数据不公开基准的接受度:这是个先例——一个有影响力的结论建立在不可复现的数据上。看社区是把它当可信参考,还是要求”要么公开数据、要么降低结论强度”。这关系到未来”隐私 vs. 可复现”的取舍范式。