Topic Timeline

#AI4Science

这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。

研究论文 2026-06-24 · 周三 重要度 3/5

NatureBench:让 coding agent 去复现 Nature 论文的 SOTA,90 题里只过 17.8%

Frontis.AI 提出跨学科基准 NatureBench,从同行评审的 Nature 系论文蒸馏出 90 个任务,配套 NatureGym 自动构建每题独立容器环境(解决此前『agent 做科研』基准的环境碎片化问题)。在禁联网搜索的严格协议下评测 10 个前沿 agent 配置,最强者在 g>0.1 标准下仅超越 SOTA 17.8% 的任务。

这篇把『agent 能不能做科研』从口号拉回到可量化的冷数据:17.8% 不是失败,而是诚实地标定了当前上限。最有价值的是它对成功/失败路径的解剖——agent 主要靠『方法论翻译』(把科学问题塞进它熟悉的监督预测套路)取得进展,而非真正的科学发明;失败也多来自『选错方法』和『算力预算不足』,而不是『没读懂题』。这等于说明白:今天的 coding agent 是熟练的工程移植工,不是会提新假设的科学家。每题独立容器 + 维护方复现的协议设计,也给『agent on research』这类长期被环境碎片化拖累、可信度存疑的基准立了个更硬的范式。

研究论文 2026-06-23 · 周二 重要度 2/5

BioMatrix:序列-结构-语言统一的生物基座,80 任务里 77 项 SOTA

上海 AI Lab 等提出 BioMatrix,称是首个在单一 decoder-only 架构内原生融合『序列、结构、语言』、同时覆盖分子与蛋白质的多模态生物基座。通过统一 tokenization 把 SMILES/SELFIES、分子结构、蛋白序列/结构与语言映射到共享离散 token 空间,统一 next-token 预测,无需外部编码器或模态专用输出头。基于 Qwen3(1.7B/4B)持续预训练 3044 亿 token,在 6 类 80 个任务上 77 项达 SOTA 或有竞争力。提交者于 6 月 23 日提交。

AI for Science 的一个值得记的方向:把生物多模态统一进一个『纯语言模型式』的 token 空间,省掉适配器和专用头,理论上能让分子与蛋白之间的跨模态生成更自然。77/80 SOTA 的说法很亮眼,但置信度需谨慎——生物基座的评测口径差异大、复现门槛高,且『SOTA 或有竞争力』的措辞把两类结果混在一起。建议等第三方在标准任务上独立复现后再下定论。