研究论文

OpenAI 推 GeneBench-Pro:129 道合成题把研究级智能体评估从『答题』推向『研究决策』,GPT-5.6 Sol 高档仅 28.7%

GeneBench-Pro 用 129 道『已知因果结构的合成题』把研究级智能体评估从答题转向研究决策:GPT-5.6 Sol 高档 28.7% 通过率(Pro 31.5%),解题数是 GPT-5.2 的 6 倍、token 消耗仅 2/3;GPT 与开源的科研推理差距显著大于代码差距。10 题开源、50 题给 Artificial Analysis。

2026年7月1日 · 周三 深度报告 中置信 重要度 5/5

本文要点

  • 评估范式:从『依赖真实数据 + 作者偏好 + 难复现』的传统基准,转向『已知因果结构 + 可直接模拟 + 绕开主观』的合成基准,把评估对象从『答案正确性』推向『研究决策正确性』
  • GPT-5.6 Sol 能力跃迁:相对 GPT-5 在原始 GeneBench 的 <5%,高档通过率提升到 28.7%(约 6 倍)、Pro 模式 31.5%;解题数约为 GPT-5.2 的 6 倍、token 消耗仅 2/3——效率与效果同步提升
  • 能力分布的隐性结论:GPT 与开源权重(GLM 5.2 等)在『科研推理』上的差距显著大于在『代码基准』上的差距——开源生态更偏代码/可工程化任务,而研究判断仍是闭源前沿的主场
  • 成本结构:人类专家 20-40 小时/题($200/h 即数千美元) vs GPT-5.6 Sol 几美元/题——首次把『研究级任务』拉入 AI 可负担区间
  • 开放策略:10 题开源到 Hugging Face(社区复现)+ 50 题给 Artificial Analysis(独立第三方),既保证透明度又避免完整集被针对性过拟合

GeneBench-Pro 把「研究级智能体」从营销词变成了可量化指标——这件事比任何单一模型的发布都更值得追踪。

6 月 30 日美西时间,OpenAI 官网与 X 同步上线《Introducing GeneBench-Pro》,把 AI 智能体在计算生物学中的评估从「答得对」推到「能否独立做出研究级判断」。基准覆盖 10 大域、21 个子域、129 道合成题,每道题都建立在已知因果结构的合成数据集上——研究者可直接在题面上调参数模拟、绕开真实数据噪声与作者偏好。UCLA Alexander Strudwick Young 给出的定性评价是「对没有资深导师反复指导的研究生来说都很难」。

数字层面:GPT-5.6 Sol 最高推理档通过率 28.7%,Pro 模式 31.5%,最低档个位数;GPT-5 一年前在原始 GeneBench 上不到 5%。效率上,GPT-5.6 Sol 高档解题数约为 GPT-5.2 的 6 倍,token 消耗却只有 2/3——少烧 1/3 算力、多解 5 倍题。人力与算力成本出现戏剧性倒挂:人类专家单题 20-40 小时、按 $200/h每题数千美元;AI 推理仅几美元/题10 道题开源至 Hugging Face50 题将给 Artificial Analysis;OpenAI 给出的预判是——该基准年底会被刷满

把题拆开看:每个域都在「测一种研究判断」

GeneBench-Pro 域分布的偏斜,比「129 道题」这个总数更有信息量。题数最多的临床/PGx/诊断域 26 题、最少的法医遗传学域仅 2 题——相差 13 倍。这不是平均撒网,而是刻意把高难度任务与高频任务并置

子域数题数在「研究链路」中的位置
临床/PGx/诊断226最贴近真实诊疗,题数最多
群体遗传学321群体结构/迁移/选择
统计遗传学417GWAS/连锁/精细定位
定量遗传学217遗传率/育种值
调控组学217基因表达/调控网络
癌症基因组学210体细胞突变/驱动基因
功能基因组学29CRISPR 筛选/基因敲除
蛋白质组学27蛋白结构/互作
微生物基因组学13病原/宏基因组
法医遗传学12亲缘/身份鉴定,边缘但极难
合计21129

这种「非均匀分布」暴露了 OpenAI 真正的评估目标——不是测 AI 会不会某一道题,而是测它能否在跨度极大的研究链路里,做出方法学上正确的判断。临床诊断要的是「在噪声里筛出真信号」,法医遗传学要的是「用极小样本重建事实」,统计遗传学要的是「处理多重检验与群体分层」——每个域背后的「研究动作」不同,这是单一答题基准测不出来的。

范式换轨:从「答得对」到「研究决策正确」

GeneBench-Pro 的核心不是「题更多、域更广」,而是切掉了两个长期困扰智能体基准的痛点

第一个换轨是数据形态。 传统基准的难处在于:用真实数据,作者可能无意中把答案藏在数据分布里;用合成数据,因果结构又往往干净到脱离现实。GeneBench-Pro 的折中是保留真实数据的复杂度,但显式标注因果机制。每道题由「生成器 + 查询」两部分组成:生成器是可调参数的因果模型(例如「某 GWAS 研究的位点数=100,有效位点=5,样本量=10000,群体分层强度=0.3」),查询是研究问题(例如「找出与表型显著关联的位点,估计效应大小,讨论分层的影响」)。AI 看到的是「生成器参数 + 合成数据 + 查询」,输出是「完整的研究决策链 + 最终结论」。

这意味着评分不再只看最终答案,而能拆解「你选了什么方法、为什么在第 N 步停、什么情况下你会推翻前面的结论」——这些「研究动作」可量化、可复现、可在生成器参数上调参后无限生成新题,把传统基准「题数固定、易被针对性过拟合」的局限给绕开了。

第二个换轨是评估对象。 在此之前,业界对「研究级 AI」的评估只能依赖 SWE-bench(代码)、FrontierMath(数学)、GPQA(科学问答)这些**「答题级」基准**——它们测的是「在给定问题下答得对不对」。但真实研究里,「决定要做什么问题」比「把问题答对」难一个数量级。GeneBench-Pro 显式把「研究决策」做成评分对象,等于把「研究级 AI」从营销词变成可量化指标——28.7% 这个数字,会很快成为所有智能体厂商发布会上的标准对比项

外部专家审核是这套基准的第三个支柱。UCLA Alexander Strudwick Young 等领域专家对全部 129 题做审核,Young 的「对没有资深导师反复指导的研究生来说都很难」这句话有两层含义:一是题目难度上限已逼近「无指导研究生」与「资深研究者」之间的鸿沟;二是「资深导师反复指导」本身就是研究能力的核心——AI 若要替代研究生,不仅要答对题,还要在「知道什么时候该问、问什么、为什么」这些研究判断上达到人类水准。

把数字摆开:GPT-5.6 Sol 站在哪一档

把 GeneBench-Pro 的核心数字与原始 GeneBench、以及传统代码基准放在一起,「研究级智能体」的位置会更清楚。

维度数值口径/对照
总题数12910 大域、21 子域;每题独立设计、已知因果结构
GPT-5.6 Sol 最高推理档通过率28.7%Pro 模式 31.5%、最低档个位数
GPT-5 在原始 GeneBench 得分<5%一年前同族基线;28.7%/5% ≈ 5.7× 提升
解题效率(GPT-5.6 Sol vs GPT-5.2)解题数 ~6×、token 消耗 ~2/3同一基准、效率与效果同步提升
Pro 模式与最高档差2.8 个百分点31.5% - 28.7%,边际收益已收窄
人类专家单题耗时20-40 小时资深研究者独立完成;按 $200/h 计每题数千美元
AI 推理单题成本几美元OpenAI 自报、未拆分档位与 token 数
Hugging Face 开源题数10完整题目与合成数据可下载,供社区复现
提供给 Artificial Analysis 题数50第三方独立评测,跟踪各模型前沿
GPT vs 开源权重科研推理差距显著大于代码差距OpenAI 点名 GLM 5.2 等开源在研究判断上仍滞后
扩展:「已知因果结构合成题」的设计原理(技术细节)

传统基准的两难:用真实数据,作者可能无意中把答案藏在数据分布里;用合成数据,因果结构太干净以至于脱离现实。GeneBench-Pro 的折中是——保留真实数据的复杂度,但显式标注因果机制

具体来说:每道题由「生成器 + 查询」两部分组成。生成器是一个可调参数的因果模型(例如「某 GWAS 研究的位点数=100,有效位点=5,样本量=10000,群体分层强度=0.3」),查询是研究问题(例如「找出与表型显著关联的位点,估计它们的效应大小,并讨论分层的影响」)。AI 智能体看到的输入是「生成器参数 + 合成数据 + 查询」,输出是「完整的研究决策链 + 最终结论」。

这种设计的两个直接好处:1)评分不再只看最终答案,而可以拆解「你选了什么方法、为什么在第 N 步停、什么情况下你会推翻前面的结论」,这些「研究动作」是可量化的;2)可以无限生成新题——只要改生成器参数,就出一道新题,绕过传统基准「题数固定、易被针对性过拟合」的局限。

代价是:题目与真实研究的「生态效度」需要外部验证——合成数据再真实,只要生成器是人写的,总会有「出题者偏好」的影子。OpenAI 的应对是把 10 题开源让社区复现,看是否有「意料之外」的研究动作被遗漏。

对各方意味着什么:不只是 OpenAI 一家的胜场

GeneBench-Pro 不是一个孤立的基准发布,它卡在三个正在加速的暗线交汇处——对不同玩家意味着完全不同的东西。

对开源生态:这是路线图被强行重置的信号。 OpenAI 明确点名:在 GeneBench-Pro 上 GPT 与开源权重(如 GLM 5.2)的科研推理差距,显著大于在传统代码基准上的差距。这不是偶然——代码任务有大量训练语料、标准化评测、工具链,开源生态(以 DeepSeek、Qwen、GLM 为代表)已经能跑出接近闭源前沿的分数;但「研究判断」依赖跨域知识整合、对因果与混杂的直觉、对「什么时候该停下来问」的元认知——这些是数据稀薄、难标注、难监督的。这条判断如果成立,意味着开源生态未来 6-12 个月的主战场仍在代码与产品级 agentic,而非科研发现。反过来,如果 Artificial Analysis 的第三方复现显示开源模型差距没 OpenAI 说的那么大,OpenAI 的「研究级」叙事会被质疑。

对药企与 CRO(合同研究组织):预算结构即将改写。 人类专家 20-40 小时/题、$200/h 即每题数千美元;AI 几美元/题——这是 100-1000 倍的成本差。即便把 AI 输出再让专家复核(可能再加 2-5 小时),总成本仍比纯人力低一个数量级。这会重塑两类决策:一是PI(课题负责人)是否仍招「做这类分析」的研究生,直接用 AI + 少量专家复核;二是AI 厂商是否把「研究级智能体」做成 SaaS(年费订阅)卖给药企/医院,替代部分 CRO 的人月——Anthropic 同日发布的「Claude Science」已经在往这个方向铺路。

对高校与研究生培养:冲击不在「能不能做」,而在「值不值得招」。 UCLA 专家那句「对没有资深导师反复指导的研究生来说都很难」反过来读是:AI 已经能做到「无指导研究生」水准,且成本远低于研究生津贴。真正会减少的不是资深研究者(懂得问什么问题、设计什么样的研究、解释反常结果),而是「做这类分析」的入门岗位——AI 让「做一个分析」变便宜,反而凸显「决定做什么分析」的稀缺性。对研究生培养的真正冲击不是「AI 替代你做实验」,而是「AI 替代你做实验之后,你必须学会问 AI 答不上来的问题」

横向看,GPT 与 Anthropic 这次对位很关键。 Anthropic 的 Claude Science 是「给科学家的 AI 工作台」——集成基因组学/蛋白质组学/结构生物学工具、预置 60+ 技能、算力可调度到 HPC,本质是「让科学家用 AI」;OpenAI 的 GeneBench-Pro 是「让 AI 当科学家」——评估 AI 智能体在多大程度上能独立做研究决策。两者一前一后,一个卖工具、一个卖能力;底层问题是同一个:「研究级 AI 究竟要替代科学家的工作,还是要放大科学家的工作?」GeneBench-Pro 给出的隐含答案是「替代」

它仍然没说清楚的事

GeneBench-Pro 看似把一切量化了,但有几个关键不确定没有在官方材料里给出答案

第一,「已知因果结构合成题」的生态效度没人验证。合成数据再真实,只要生成器是人写的,总会有「出题者偏好」的影子——题目是否覆盖了真实研究里的「脏数据、混杂与未知机制」,目前无定论。10 题开源到 Hugging Face 是开放姿态,但真刻度要等 Artificial Analysis 拿到 50 题后的第三方复现

第二,Pro 模式(31.5%)与最高档(28.7%)之间只差 2.8 个百分点——这暗示「更多思考 token」的边际收益已接近饱和,继续堆推理预算的回报会快速衰减。如果 OpenAI 的「年底被刷满」指的是 Pro 模式 50% 通过率,那 6 个月内需要再涨 20 个百分点,需要的不只是更大模型,可能是工具链 + 多 agent 协作的范式跳跃——但这个跳跃在 GeneBench-Pro 的评分体系里能不能体现,也是未知数。

第三,「几美元/题」是 OpenAI 自家模型跑的数,真实账单受模型/档位/调用方式影响,差异可能数倍。更关键的是,真实工作流不是「AI 独立做完一道题」,而是「AI 出初稿 + 专家复核 + 关键决策由人拍板」——这会把单题成本从 $4000 压到 $200-500(2-5 小时专家复核),仍然便宜一个数量级,但**「几美元/题」和「$200-500/题」之间差着 50-100 倍**,OpenAI 的标题叙事掩盖了这个混合工作流的实际成本。

早报观点

GeneBench-Pro 是 OpenAI 在「研究级 AI」上的一次主动叙事占位——通过把评估对象从「答得对」换成「研究决策正确」,把一个原本模糊的能力维度,锁死成一个可被刷分、可被引用、可被写进竞品对比的硬指标。这件事的危险不在 OpenAI 自身(它已经是闭源前沿的最大受益者),而在于它重新定义了「前沿」的边界——接下来 6-12 个月,所有智能体发布会都会自觉或不自觉地拿「研究级」说事,而不只是比答题分数。

但 28.7% 这个数字,既是 GPT-5.6 Sol 的里程碑,也是「研究级 AI 仍处于早期阶段」的最强证据。真正的看点不是「谁先把通过率推过 50%」,而是「AI 替代『做一个分析』之后,『决定做什么分析』的人类价值如何被重新定价」——成本倒挂的另一边,是「问什么问题」的稀缺性反而会上升。

接下来看什么

  • Artificial Analysis 50 题的第三方复现:GPT-5.6 Sol 通过率是被高估还是低估?开源权重(GLM 5.2、MiniMax M3、Nemotron 3 Ultra 等)在 GeneBench-Pro 上的具体得分是否印证「科研推理差距 > 代码差距」——这是检验 OpenAI 全部核心论断的关键
  • Hugging Face 10 题的社区复现进度:30 天内是否出现独立提交的逼近方案?若有,说明「已知因果结构合成题」仍存在数据泄露/过拟合空间;若没有,说明基准难度上限被高估
  • Pro 模式(31.5%)与最高档(28.7%)的边际收益曲线:在更长推理预算下还能涨多少?如果 2.8 个百分点的差在 10× token 预算下仅扩大到 5-6 个百分点,意味着「思考 token」的投资回报率正在快速衰减
  • OpenAI 后续模型(GPT-5.7、GPT-6)是否把 GeneBench-Pro 纳入发布前自评清单——若纳入,会显著抬高该基准在厂商决策中的权重,也意味着 OpenAI 后续模型会针对性优化
  • 高校与研究机构是否把 GeneBench-Pro 纳入「AI 辅助研究」教学/选课参考——这会改变研究生培养的「必学工具」清单,以及 PI 的招人/课题决策
  • Anthropic Claude Science + GeneBench-Pro 的同周对位:一边是「科学家用 AI」的工具,一边是「AI 当科学家」的能力评估——两者未来 6-12 个月的竞争会决定「研究级 AI」的产品形态(工具 vs 替代)
  • 「年底被刷满」的最早突破者:是哪一家/哪一代模型/哪个档位最先突破 50%?是闭源前沿(GPT-6、Claude Opus 下一代、Gemini 新档)还是某个意外开源权重?突破时点会反向校准「前沿」定义