Topic Timeline

#GeneBench-Pro

这个主题在过往早报中的出现记录。深度条目直达研究报告，其余条目回到当日 edition。

头条 2026-07-01 · 周三重要度 4/5 深度报告 →

OpenAI 发布 GeneBench-Pro:129 道合成题 + 已知因果结构,把『研究级智能体』评估从答题推向研究决策

OpenAI 发布研究级基准 GeneBench-Pro,衡量 AI 智能体在计算生物学研究中面对模糊性、做关键判断的能力,是 GeneBench 的升级版。覆盖统计遗传学/群体遗传学/定量遗传学/调控组学/功能基因组学/蛋白质组学/临床-PGx-诊断/癌症基因组学/微生物基因组学/法医遗传学共 10 大域、21 子域、129 道合成题(因果结构已知,可直接模拟,避免作者偏好)。GPT-5.6 Sol 高推理档通过率 28.7%(Pro 模式 31.5%),最低档个位数;GPT-5 此前在原始 GeneBench 得分低于 5%。GPT-5.6 Sol 高推理档解题数约为 GPT-5.2 的 6 倍,token 消耗只有 2/3。GPT 与开源模型(GLM 5.2 等)的科研推理差距显著大于代码差距。UCLA 专家评『对没有资深导师反复指导的研究生来说都很难』。评测估时:人类专家 20-40 小时/题、$200/h 即数千美元,而推理成本仅几美元/题。10 题已开源至 HF,50 题将给 Artificial Analysis。OpenAI 预判年底该基准会被刷满。

GeneBench-Pro 真正的价值不在『又一份榜单』,而在三件事:一是用『合成题 + 已知因果结构』绕开『训练数据污染』与『作者偏好』两个老问题,让基准可信度上一个台阶;二是把『模糊性』与『关键判断』作为研究智能体的核心能力,与 SWE-bench 的『代码正确』是不同维度;三是高调对比开源模型在科研推理上的落后——OpenAI 在为『前沿闭源的科学推理护城河』建立叙事。预期年底被刷满是 OpenAI 自定的产品节奏,与 Cognition Devin Fusion 的『harness 比模型更重要』形成方法论竞争。