Topic Timeline

#benchmark

这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。

研究论文 2026-06-24 · 周三 重要度 3/5

NatureBench:让 coding agent 去复现 Nature 论文的 SOTA,90 题里只过 17.8%

Frontis.AI 提出跨学科基准 NatureBench,从同行评审的 Nature 系论文蒸馏出 90 个任务,配套 NatureGym 自动构建每题独立容器环境(解决此前『agent 做科研』基准的环境碎片化问题)。在禁联网搜索的严格协议下评测 10 个前沿 agent 配置,最强者在 g>0.1 标准下仅超越 SOTA 17.8% 的任务。

这篇把『agent 能不能做科研』从口号拉回到可量化的冷数据:17.8% 不是失败,而是诚实地标定了当前上限。最有价值的是它对成功/失败路径的解剖——agent 主要靠『方法论翻译』(把科学问题塞进它熟悉的监督预测套路)取得进展,而非真正的科学发明;失败也多来自『选错方法』和『算力预算不足』,而不是『没读懂题』。这等于说明白:今天的 coding agent 是熟练的工程移植工,不是会提新假设的科学家。每题独立容器 + 维护方复现的协议设计,也给『agent on research』这类长期被环境碎片化拖累、可信度存疑的基准立了个更硬的范式。

研究论文 2026-06-24 · 周三 重要度 4/5 深度报告 →

EnterpriseClawBench:用真实职场会话造基准,最强 agent 也只过 0.766

一个从专有真实 agent 会话蒸馏出的企业级基准:5291 条原始任务实例经自动化流水线收敛成 852 个可复现任务。全集最强 GPT-5.5 仅 0.766,Lite 子集顶分只有 0.663,远未饱和。核心发现是 agent 表现高度依赖 harness 而非只看模型——Claude 系在 Hermes 运行时从 0.62-0.64 骤降到 0.458。因数据集不公开,外部无法独立复现,引用需带 caveat。

研究论文 2026-06-23 · 周二 重要度 2/5

CLI-Universe:为终端 agent 合成可验证任务,32B 模型 Terminal-Bench 2.0 冲到 33.4%

南大、StepFun、上海 AI Lab 等针对终端 agent 训练数据稀缺,提出『由内向外』的任务合成引擎:任务蓝图构建→Docker 环境实体化→多阶段验证过滤(约三分之二候选被拒,仅 33.6% 存活)。产出 CLI-Universe-6K 训练集。Terminal-Bench 2.0 上 CLI-Universe-32B 达 33.4%,超同尺寸 SkillSynth-32B(29.6)及更大的 Qwen3-Coder(480B,23.9),但仍落后 Claude-Opus-4.5(57.8)。

终端/CLI agent 是 coding agent 的硬骨头,数据合成质量直接决定上限。这篇的价值在于把『可验证』做实——用角色分离的 agent 做规则门控测试、fail-to-pass 检查,官方解能通过 91% 合成测试。但也暴露了开源与闭源的鸿沟:32B 苦练到 33.4%,仍不及 Claude-Opus-4.5 的 57.8,说明高质量合成数据能缩小但远未填平差距。

研究论文 2026-06-23 · 周二 重要度 5/5 深度报告 →

EnterpriseClawBench:把 5291 条真实职场会话变成评测,给 Claude Code、Codex 直接打分

该基准从真实企业 agent 会话中提炼出 852 个可复现任务(含 120 题人工审核的 Lite 子集),用『硬规则 + 五维语义评判』双层打分,评测了 32 个 harness-模型组合(Claude Code、Codex、DeepAgents、Hermes、OpenClaw)。因含内部内容,数据不公开,公开的是构建与评测协议。最佳 Lite 成绩仅 0.663(Codex+GPT-5.5),全集 DeepAgents 上 GPT-5.5=0.766、Sonnet 4.6=0.749、Haiku 4.5=0.632。

它补上了 agent 评测最稀缺的一环:真实办公场景而非合成任务。两个判断值得划重点:其一,harness 影响巨大——同一个 Sonnet 4.6 在 Hermes 下掉到 0.458,在其他 harness 下 0.62–0.64,说明『模型 + 框架』要一起评,单看模型分会误导选型;其二,文本评判与人类对齐尚可(MAE 0.134),但视觉产物评判很弱(MAE 0.303、秩相关为负),意味着对图表/界面类交付物的自动评分还不可信。

研究论文 2026-06-23 · 周二 重要度 5/5 深度报告 →

PlanBench-XL:把前沿模型扔进 1665 个工具的「迷宫」,长程规划集体露怯

UIUC 团队提出 PlanBench-XL,用 327 个零售任务、1665 个需检索发现的工具、平均约 25 轮交互,评测 LLM 智能体在大规模工具生态下的长程规划。引入显性/隐性/误导三类工具阻塞模拟「缺失、失效、干扰」。GPT-5.4 无干扰准确率 51.90%,重度阻塞下骤降至 11.36%;Gemini-3.1-Pro 以 77.06% 领先,Qwen3-8B、Llama-3.1-8B-Instruct 为 0%。

这是当天最有分量的一篇:它把「agent 能不能用」的问题从单步工具调用提升到大规模工具生态 + 动态故障的真实复杂度。最扎心的发现是『沉默失败最伤』——隐性工具故障最难被模型察觉,GPT-5.4 的主导失败模式是 72.4% 的『不可逆漂移』,说明当前模型一旦走错就回不来。探索倾向与准确率高度相关(Pearson r=0.902),提示『敢于试探』是长程规划的关键能力。