Topic Timeline
#harness
这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。
研究论文 2026-06-24 · 周三 重要度 4/5 深度报告 →
EnterpriseClawBench:用真实职场会话造基准,最强 agent 也只过 0.766
一个从专有真实 agent 会话蒸馏出的企业级基准:5291 条原始任务实例经自动化流水线收敛成 852 个可复现任务。全集最强 GPT-5.5 仅 0.766,Lite 子集顶分只有 0.663,远未饱和。核心发现是 agent 表现高度依赖 harness 而非只看模型——Claude 系在 Hermes 运行时从 0.62-0.64 骤降到 0.458。因数据集不公开,外部无法独立复现,引用需带 caveat。
研究论文 2026-06-23 · 周二 重要度 5/5 深度报告 →
EnterpriseClawBench:把 5291 条真实职场会话变成评测,给 Claude Code、Codex 直接打分
该基准从真实企业 agent 会话中提炼出 852 个可复现任务(含 120 题人工审核的 Lite 子集),用『硬规则 + 五维语义评判』双层打分,评测了 32 个 harness-模型组合(Claude Code、Codex、DeepAgents、Hermes、OpenClaw)。因含内部内容,数据不公开,公开的是构建与评测协议。最佳 Lite 成绩仅 0.663(Codex+GPT-5.5),全集 DeepAgents 上 GPT-5.5=0.766、Sonnet 4.6=0.749、Haiku 4.5=0.632。
它补上了 agent 评测最稀缺的一环:真实办公场景而非合成任务。两个判断值得划重点:其一,harness 影响巨大——同一个 Sonnet 4.6 在 Hermes 下掉到 0.458,在其他 harness 下 0.62–0.64,说明『模型 + 框架』要一起评,单看模型分会误导选型;其二,文本评判与人类对齐尚可(MAE 0.134),但视觉产物评判很弱(MAE 0.303、秩相关为负),意味着对图表/界面类交付物的自动评分还不可信。