Topic Timeline
#科研自动化
这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。
研究论文 2026-06-24 · 周三 重要度 3/5
NatureBench:让 coding agent 去复现 Nature 论文的 SOTA,90 题里只过 17.8%
Frontis.AI 提出跨学科基准 NatureBench,从同行评审的 Nature 系论文蒸馏出 90 个任务,配套 NatureGym 自动构建每题独立容器环境(解决此前『agent 做科研』基准的环境碎片化问题)。在禁联网搜索的严格协议下评测 10 个前沿 agent 配置,最强者在 g>0.1 标准下仅超越 SOTA 17.8% 的任务。
这篇把『agent 能不能做科研』从口号拉回到可量化的冷数据:17.8% 不是失败,而是诚实地标定了当前上限。最有价值的是它对成功/失败路径的解剖——agent 主要靠『方法论翻译』(把科学问题塞进它熟悉的监督预测套路)取得进展,而非真正的科学发明;失败也多来自『选错方法』和『算力预算不足』,而不是『没读懂题』。这等于说明白:今天的 coding agent 是熟练的工程移植工,不是会提新假设的科学家。每题独立容器 + 维护方复现的协议设计,也给『agent on research』这类长期被环境碎片化拖累、可信度存疑的基准立了个更硬的范式。