Topic Timeline

#Benchmark

这个主题在过往早报中的出现记录。深度条目直达研究报告，其余条目回到当日 edition。

行业动态 2026-06-28 · 周日重要度 2/5

awesome-evals 等开源资源升温:Agent 评测正从『刷榜』走向工程化基础设施

本周 GitHub 多个 agent 工具/资源升温:benchflow-ai/awesome-evals(544★,Agent 评测论文/工具/基准精选库)、eli-labz/Godcoder(245★,本地优先开源编码 agent,代码不离机)、NotASithLord/peerd(202★,首个浏览器原生 agent harness)、lightbearco/tupper(128★,本机安全运行不可信 AI 生成代码的沙箱)。另有 @omarsar0 推荐的 LLM-as-judge 论文 BINEVAL(842 赞):把评估标准拆成原子化是/否问题逐题独立判断再聚合,可精确诊断输出为何低分,在 SummEval/QAGS 等无需训练即匹敌或超过 G-Eval。

把这几个项目放在一起看,一条清晰的趋势浮现:agent 评测与运行环境正在从『跑个 benchmark 报个分』变成一类正经的工程基础设施。awesome-evals 这种精选库的走红,说明社区开始系统性沉淀『怎么评测 agent』的知识;tupper(沙箱)、peerd(浏览器 harness)、Godcoder(本地优先)则各自补上 agent 安全运行的一块拼图——尤其 tupper 直击『AI 生成代码不可信怎么安全跑』这个随 coding agent 普及而愈发尖锐的问题。BINEVAL 把 LLM-as-judge 从『给个总分』细化到『逐个原子问题可检视』,呼应的是同一诉求:评测要可诊断、可反哺改进,而不只是一个分数。这条和早报近期密集的 agent 评测论文(PlanBench-XL、EnterpriseClawBench 等)是一体的——当 agent 走向生产,『怎么严肃地评测和安全地运行它』本身就成了刚需赛道。

研究论文 2026-06-26 · 周五深度报告 →

MirrorCode 基准:Opus 4.7 仅凭运行行为重写软件,14 小时抵人类数周

Epoch AI 等机构的 MirrorCode 基准要求 AI 仅凭程序可执行行为(可运行但无源码)重写整套软件,覆盖 25 个目标程序、6 种语言(Python/C/Rust/Go/OCaml/Ada),用含隐藏测试的端到端测试判定一致性。最强模型 Claude Opus 4.7 全基准 56%(8 个月前模型约 30%);典型案例重写 1.6 万行 Go 生物信息学工具包 gotree(40+ 命令),用 14 小时通过 2000/2001 测试(99.95%)、花费 $251,人类估计需 2-17 周,单个大任务一次尝试可耗 $2600/19 天。Mollick 借此称"聊天机器人时代已结束"。

研究论文 2026-06-24 · 周三重要度 4/5 深度报告 →

PlanBench-XL:1665 个工具的长程规划评测,前沿模型在「静默失败」前集体失灵

UIUC 团队提出交互式长程规划基准 PlanBench-XL:327 个零售任务、1665 个工具、56 种数据类型,工具需检索动态发现,平均约 25 轮、最短解 5–9 次调用。Gemini-3.1-Pro 最强(77.06%),GPT-5.4 默认 51.90% 但在最严重阻塞下崩到 11.36%,最小模型为 0%;探索度与准确率强相关(r=0.902),「静默失败」危害最大。