#agent 评测
这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。
awesome-evals 等开源资源升温:Agent 评测正从『刷榜』走向工程化基础设施
本周 GitHub 多个 agent 工具/资源升温:benchflow-ai/awesome-evals(544★,Agent 评测论文/工具/基准精选库)、eli-labz/Godcoder(245★,本地优先开源编码 agent,代码不离机)、NotASithLord/peerd(202★,首个浏览器原生 agent harness)、lightbearco/tupper(128★,本机安全运行不可信 AI 生成代码的沙箱)。另有 @omarsar0 推荐的 LLM-as-judge 论文 BINEVAL(842 赞):把评估标准拆成原子化是/否问题逐题独立判断再聚合,可精确诊断输出为何低分,在 SummEval/QAGS 等无需训练即匹敌或超过 G-Eval。
把这几个项目放在一起看,一条清晰的趋势浮现:agent 评测与运行环境正在从『跑个 benchmark 报个分』变成一类正经的工程基础设施。awesome-evals 这种精选库的走红,说明社区开始系统性沉淀『怎么评测 agent』的知识;tupper(沙箱)、peerd(浏览器 harness)、Godcoder(本地优先)则各自补上 agent 安全运行的一块拼图——尤其 tupper 直击『AI 生成代码不可信怎么安全跑』这个随 coding agent 普及而愈发尖锐的问题。BINEVAL 把 LLM-as-judge 从『给个总分』细化到『逐个原子问题可检视』,呼应的是同一诉求:评测要可诊断、可反哺改进,而不只是一个分数。这条和早报近期密集的 agent 评测论文(PlanBench-XL、EnterpriseClawBench 等)是一体的——当 agent 走向生产,『怎么严肃地评测和安全地运行它』本身就成了刚需赛道。