Topic Timeline
#企业级
这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。
研究论文 2026-06-24 · 周三 重要度 4/5 深度报告 →
EnterpriseClawBench:用真实职场会话造基准,最强 agent 也只过 0.766
一个从专有真实 agent 会话蒸馏出的企业级基准:5291 条原始任务实例经自动化流水线收敛成 852 个可复现任务。全集最强 GPT-5.5 仅 0.766,Lite 子集顶分只有 0.663,远未饱和。核心发现是 agent 表现高度依赖 harness 而非只看模型——Claude 系在 Hermes 运行时从 0.62-0.64 骤降到 0.458。因数据集不公开,外部无法独立复现,引用需带 caveat。