研究论文

OpenAI 推 GeneBench-Pro:129 道合成题把研究级智能体评估从『答题』推向『研究决策』,GPT-5.6 Sol 高档仅 28.7%

GeneBench-Pro 用 129 道『已知因果结构的合成题』把研究级智能体评估从答题转向研究决策:GPT-5.6 Sol 高档 28.7% 通过率(Pro 31.5%),解题数是 GPT-5.2 的 6 倍、token 消耗仅 2/3;GPT 与开源的科研推理差距显著大于代码差距。10 题开源、50 题给 Artificial Analysis。

2026年7月1日 · 周三深度报告中置信重要度 5/5

#OpenAI #GeneBench-Pro #GPT-5.6 #GPT-5.6 Sol #研究级智能体 #计算生物学 #基准测试 #Hugging Face #Artificial Analysis #生物 AI

Research Pack

核心问题

GeneBench-Pro 是怎么把 AI 智能体评估从『答题』推向『研究决策』的?GPT-5.6 Sol 28.7% 的通过率说明了什么?GPT 与开源在科研推理上的差距为什么比代码差距更大?

为什么是现在

原始 GeneBench 在 2025 年发布时,暴露了 GPT-5 不到 5% 通过率的『答题 vs 研究』能力鸿沟;2026 年 GPT-5.6 Sol 把这一数字推到 28.7%(提升约 6 倍),但仍未过半——正是检验『前沿模型是否已具备研究级智能体能力』的关键时间窗。同时,Anthropic/Google 等对手在基因编辑、蛋白质设计等垂直领域加速布局,OpenAI 急需用一个『研究级而非答题级』的基准来证明自家智能体在『科学发现』上的不可替代性——这与同日发布的『用于科学家的 AI 工作台 Claude Science』形成正面竞争。

关键数字

129
GeneBench-Pro 总题数覆盖 10 大域、21 个子域;按域题数:统计遗传学 17、群体遗传学 21、定量遗传学 17、调控组学 17、功能基因组学 9、蛋白质组学 7、临床/PGx/诊断 26、癌症基因组学 10、微生物基因组学 3、法医遗传学 2

28.7%
GPT-5.6 Sol 最高推理档通过率Pro 模式 31.5%、最低档个位数;GPT-5 此前在原始 GeneBench 上得分低于 5%

解题数约 6 倍、token 消耗约 2/3
GPT-5.6 Sol 高档 vs GPT-5.2 解题效率同一基准上的纵向对比;OpenAI 官方未公开单模型 token 绝对值

20-40 小时
专家评估每题耗时$200/h 即每题数千美元;OpenAI 评估 GPT-5.6 Sol 的推理成本仅几美元/题——人力 vs 算力的成本倒挂是该基准的隐含叙事

本文要点

评估范式:从『依赖真实数据 + 作者偏好 + 难复现』的传统基准,转向『已知因果结构 + 可直接模拟 + 绕开主观』的合成基准,把评估对象从『答案正确性』推向『研究决策正确性』
GPT-5.6 Sol 能力跃迁:相对 GPT-5 在原始 GeneBench 的 <5%,高档通过率提升到 28.7%(约 6 倍)、Pro 模式 31.5%;解题数约为 GPT-5.2 的 6 倍、token 消耗仅 2/3——效率与效果同步提升
能力分布的隐性结论:GPT 与开源权重(GLM 5.2 等)在『科研推理』上的差距显著大于在『代码基准』上的差距——开源生态更偏代码/可工程化任务,而研究判断仍是闭源前沿的主场
成本结构:人类专家 20-40 小时/题($200/h 即数千美元) vs GPT-5.6 Sol 几美元/题——首次把『研究级任务』拉入 AI 可负担区间
开放策略:10 题开源到 Hugging Face(社区复现)+ 50 题给 Artificial Analysis(独立第三方),既保证透明度又避免完整集被针对性过拟合

GeneBench-Pro 把「研究级智能体」从营销词变成了可量化指标——这件事比任何单一模型的发布都更值得追踪。

6 月 30 日美西时间,OpenAI 官网与 X 同步上线《Introducing GeneBench-Pro》,把 AI 智能体在计算生物学中的评估从「答得对」推到「能否独立做出研究级判断」。基准覆盖 10 大域、21 个子域、129 道合成题,每道题都建立在已知因果结构的合成数据集上——研究者可直接在题面上调参数模拟、绕开真实数据噪声与作者偏好。UCLA Alexander Strudwick Young 给出的定性评价是「对没有资深导师反复指导的研究生来说都很难」。

数字层面:GPT-5.6 Sol 最高推理档通过率 28.7%,Pro 模式 31.5%,最低档个位数;GPT-5 一年前在原始 GeneBench 上不到 5%。效率上,GPT-5.6 Sol 高档解题数约为 GPT-5.2 的 6 倍,token 消耗却只有 2/3——少烧 1/3 算力、多解 5 倍题。人力与算力成本出现戏剧性倒挂:人类专家单题 20-40 小时、按 $200/h 即每题数千美元;AI 推理仅几美元/题。10 道题开源至 Hugging Face、50 题将给 Artificial Analysis;OpenAI 给出的预判是——该基准年底会被刷满。

把题拆开看:每个域都在「测一种研究判断」

GeneBench-Pro 域分布的偏斜,比「129 道题」这个总数更有信息量。题数最多的临床/PGx/诊断域 26 题、最少的法医遗传学域仅 2 题——相差 13 倍。这不是平均撒网,而是刻意把高难度任务与高频任务并置。

域	子域数	题数	在「研究链路」中的位置
临床/PGx/诊断	2	26	最贴近真实诊疗,题数最多
群体遗传学	3	21	群体结构/迁移/选择
统计遗传学	4	17	GWAS/连锁/精细定位
定量遗传学	2	17	遗传率/育种值
调控组学	2	17	基因表达/调控网络
癌症基因组学	2	10	体细胞突变/驱动基因
功能基因组学	2	9	CRISPR 筛选/基因敲除
蛋白质组学	2	7	蛋白结构/互作
微生物基因组学	1	3	病原/宏基因组
法医遗传学	1	2	亲缘/身份鉴定,边缘但极难
合计	21	129	—

这种「非均匀分布」暴露了 OpenAI 真正的评估目标——不是测 AI 会不会某一道题,而是测它能否在跨度极大的研究链路里,做出方法学上正确的判断。临床诊断要的是「在噪声里筛出真信号」,法医遗传学要的是「用极小样本重建事实」,统计遗传学要的是「处理多重检验与群体分层」——每个域背后的「研究动作」不同,这是单一答题基准测不出来的。

范式换轨:从「答得对」到「研究决策正确」

GeneBench-Pro 的核心不是「题更多、域更广」,而是切掉了两个长期困扰智能体基准的痛点。

第一个换轨是数据形态。 传统基准的难处在于:用真实数据,作者可能无意中把答案藏在数据分布里;用合成数据,因果结构又往往干净到脱离现实。GeneBench-Pro 的折中是保留真实数据的复杂度,但显式标注因果机制。每道题由「生成器 + 查询」两部分组成:生成器是可调参数的因果模型(例如「某 GWAS 研究的位点数=100,有效位点=5,样本量=10000,群体分层强度=0.3」),查询是研究问题(例如「找出与表型显著关联的位点,估计效应大小,讨论分层的影响」)。AI 看到的是「生成器参数 + 合成数据 + 查询」,输出是「完整的研究决策链 + 最终结论」。

这意味着评分不再只看最终答案,而能拆解「你选了什么方法、为什么在第 N 步停、什么情况下你会推翻前面的结论」——这些「研究动作」可量化、可复现、可在生成器参数上调参后无限生成新题,把传统基准「题数固定、易被针对性过拟合」的局限给绕开了。

第二个换轨是评估对象。 在此之前,业界对「研究级 AI」的评估只能依赖 SWE-bench(代码)、FrontierMath(数学)、GPQA(科学问答)这些**「答题级」基准**——它们测的是「在给定问题下答得对不对」。但真实研究里,「决定要做什么问题」比「把问题答对」难一个数量级。GeneBench-Pro 显式把「研究决策」做成评分对象,等于把「研究级 AI」从营销词变成可量化指标——28.7% 这个数字,会很快成为所有智能体厂商发布会上的标准对比项。

外部专家审核是这套基准的第三个支柱。UCLA Alexander Strudwick Young 等领域专家对全部 129 题做审核,Young 的「对没有资深导师反复指导的研究生来说都很难」这句话有两层含义:一是题目难度上限已逼近「无指导研究生」与「资深研究者」之间的鸿沟;二是「资深导师反复指导」本身就是研究能力的核心——AI 若要替代研究生,不仅要答对题,还要在「知道什么时候该问、问什么、为什么」这些研究判断上达到人类水准。

把数字摆开:GPT-5.6 Sol 站在哪一档

把 GeneBench-Pro 的核心数字与原始 GeneBench、以及传统代码基准放在一起,「研究级智能体」的位置会更清楚。

维度	数值	口径/对照
总题数	129	10 大域、21 子域;每题独立设计、已知因果结构
GPT-5.6 Sol 最高推理档通过率	28.7%	Pro 模式 31.5%、最低档个位数
GPT-5 在原始 GeneBench 得分	<5%	一年前同族基线;28.7%/5% ≈ 5.7× 提升
解题效率(GPT-5.6 Sol vs GPT-5.2)	解题数 ~6×、token 消耗 ~2/3	同一基准、效率与效果同步提升
Pro 模式与最高档差	2.8 个百分点	31.5% - 28.7%,边际收益已收窄
人类专家单题耗时	20-40 小时	资深研究者独立完成;按 $200/h 计每题数千美元
AI 推理单题成本	几美元	OpenAI 自报、未拆分档位与 token 数
Hugging Face 开源题数	10	完整题目与合成数据可下载,供社区复现
提供给 Artificial Analysis 题数	50	第三方独立评测,跟踪各模型前沿
GPT vs 开源权重科研推理差距	显著大于代码差距	OpenAI 点名 GLM 5.2 等开源在研究判断上仍滞后

扩展:「已知因果结构合成题」的设计原理(技术细节)

传统基准的两难:用真实数据,作者可能无意中把答案藏在数据分布里;用合成数据,因果结构太干净以至于脱离现实。GeneBench-Pro 的折中是——保留真实数据的复杂度,但显式标注因果机制。

具体来说:每道题由「生成器 + 查询」两部分组成。生成器是一个可调参数的因果模型(例如「某 GWAS 研究的位点数=100,有效位点=5,样本量=10000,群体分层强度=0.3」),查询是研究问题(例如「找出与表型显著关联的位点,估计它们的效应大小,并讨论分层的影响」)。AI 智能体看到的输入是「生成器参数 + 合成数据 + 查询」,输出是「完整的研究决策链 + 最终结论」。

这种设计的两个直接好处:1)评分不再只看最终答案,而可以拆解「你选了什么方法、为什么在第 N 步停、什么情况下你会推翻前面的结论」,这些「研究动作」是可量化的;2)可以无限生成新题——只要改生成器参数,就出一道新题,绕过传统基准「题数固定、易被针对性过拟合」的局限。

代价是:题目与真实研究的「生态效度」需要外部验证——合成数据再真实,只要生成器是人写的,总会有「出题者偏好」的影子。OpenAI 的应对是把 10 题开源让社区复现,看是否有「意料之外」的研究动作被遗漏。

对各方意味着什么:不只是 OpenAI 一家的胜场

GeneBench-Pro 不是一个孤立的基准发布,它卡在三个正在加速的暗线交汇处——对不同玩家意味着完全不同的东西。

对开源生态:这是路线图被强行重置的信号。 OpenAI 明确点名:在 GeneBench-Pro 上 GPT 与开源权重(如 GLM 5.2)的科研推理差距,显著大于在传统代码基准上的差距。这不是偶然——代码任务有大量训练语料、标准化评测、工具链,开源生态(以 DeepSeek、Qwen、GLM 为代表)已经能跑出接近闭源前沿的分数;但「研究判断」依赖跨域知识整合、对因果与混杂的直觉、对「什么时候该停下来问」的元认知——这些是数据稀薄、难标注、难监督的。这条判断如果成立,意味着开源生态未来 6-12 个月的主战场仍在代码与产品级 agentic,而非科研发现。反过来,如果 Artificial Analysis 的第三方复现显示开源模型差距没 OpenAI 说的那么大,OpenAI 的「研究级」叙事会被质疑。

对药企与 CRO(合同研究组织):预算结构即将改写。 人类专家 20-40 小时/题、$200/h 即每题数千美元;AI 几美元/题——这是 100-1000 倍的成本差。即便把 AI 输出再让专家复核(可能再加 2-5 小时),总成本仍比纯人力低一个数量级。这会重塑两类决策:一是PI(课题负责人)是否仍招「做这类分析」的研究生,直接用 AI + 少量专家复核;二是AI 厂商是否把「研究级智能体」做成 SaaS(年费订阅)卖给药企/医院,替代部分 CRO 的人月——Anthropic 同日发布的「Claude Science」已经在往这个方向铺路。

对高校与研究生培养:冲击不在「能不能做」,而在「值不值得招」。 UCLA 专家那句「对没有资深导师反复指导的研究生来说都很难」反过来读是:AI 已经能做到「无指导研究生」水准,且成本远低于研究生津贴。真正会减少的不是资深研究者(懂得问什么问题、设计什么样的研究、解释反常结果),而是「做这类分析」的入门岗位——AI 让「做一个分析」变便宜,反而凸显「决定做什么分析」的稀缺性。对研究生培养的真正冲击不是「AI 替代你做实验」,而是「AI 替代你做实验之后,你必须学会问 AI 答不上来的问题」。

横向看,GPT 与 Anthropic 这次对位很关键。 Anthropic 的 Claude Science 是「给科学家的 AI 工作台」——集成基因组学/蛋白质组学/结构生物学工具、预置 60+ 技能、算力可调度到 HPC,本质是「让科学家用 AI」;OpenAI 的 GeneBench-Pro 是「让 AI 当科学家」——评估 AI 智能体在多大程度上能独立做研究决策。两者一前一后,一个卖工具、一个卖能力;底层问题是同一个:「研究级 AI 究竟要替代科学家的工作,还是要放大科学家的工作?」GeneBench-Pro 给出的隐含答案是「替代」。

它仍然没说清楚的事

GeneBench-Pro 看似把一切量化了,但有几个关键不确定没有在官方材料里给出答案。

第一,「已知因果结构合成题」的生态效度没人验证。合成数据再真实,只要生成器是人写的,总会有「出题者偏好」的影子——题目是否覆盖了真实研究里的「脏数据、混杂与未知机制」,目前无定论。10 题开源到 Hugging Face 是开放姿态,但真刻度要等 Artificial Analysis 拿到 50 题后的第三方复现。

第二,Pro 模式(31.5%)与最高档(28.7%)之间只差 2.8 个百分点——这暗示「更多思考 token」的边际收益已接近饱和,继续堆推理预算的回报会快速衰减。如果 OpenAI 的「年底被刷满」指的是 Pro 模式 50% 通过率,那 6 个月内需要再涨 20 个百分点,需要的不只是更大模型,可能是工具链 + 多 agent 协作的范式跳跃——但这个跳跃在 GeneBench-Pro 的评分体系里能不能体现,也是未知数。

第三,「几美元/题」是 OpenAI 自家模型跑的数,真实账单受模型/档位/调用方式影响,差异可能数倍。更关键的是,真实工作流不是「AI 独立做完一道题」,而是「AI 出初稿 + 专家复核 + 关键决策由人拍板」——这会把单题成本从 $4000 压到 $200-500(2-5 小时专家复核),仍然便宜一个数量级,但**「几美元/题」和「$200-500/题」之间差着 50-100 倍**,OpenAI 的标题叙事掩盖了这个混合工作流的实际成本。

早报观点

GeneBench-Pro 是 OpenAI 在「研究级 AI」上的一次主动叙事占位——通过把评估对象从「答得对」换成「研究决策正确」,把一个原本模糊的能力维度,锁死成一个可被刷分、可被引用、可被写进竞品对比的硬指标。这件事的危险不在 OpenAI 自身(它已经是闭源前沿的最大受益者),而在于它重新定义了「前沿」的边界——接下来 6-12 个月,所有智能体发布会都会自觉或不自觉地拿「研究级」说事,而不只是比答题分数。

但 28.7% 这个数字,既是 GPT-5.6 Sol 的里程碑,也是「研究级 AI 仍处于早期阶段」的最强证据。真正的看点不是「谁先把通过率推过 50%」,而是「AI 替代『做一个分析』之后,『决定做什么分析』的人类价值如何被重新定价」——成本倒挂的另一边,是「问什么问题」的稀缺性反而会上升。

接下来看什么

Artificial Analysis 50 题的第三方复现:GPT-5.6 Sol 通过率是被高估还是低估?开源权重(GLM 5.2、MiniMax M3、Nemotron 3 Ultra 等)在 GeneBench-Pro 上的具体得分是否印证「科研推理差距 > 代码差距」——这是检验 OpenAI 全部核心论断的关键
Hugging Face 10 题的社区复现进度:30 天内是否出现独立提交的逼近方案?若有,说明「已知因果结构合成题」仍存在数据泄露/过拟合空间;若没有,说明基准难度上限被高估
Pro 模式(31.5%)与最高档(28.7%)的边际收益曲线:在更长推理预算下还能涨多少?如果 2.8 个百分点的差在 10× token 预算下仅扩大到 5-6 个百分点,意味着「思考 token」的投资回报率正在快速衰减
OpenAI 后续模型(GPT-5.7、GPT-6)是否把 GeneBench-Pro 纳入发布前自评清单——若纳入,会显著抬高该基准在厂商决策中的权重,也意味着 OpenAI 后续模型会针对性优化
高校与研究机构是否把 GeneBench-Pro 纳入「AI 辅助研究」教学/选课参考——这会改变研究生培养的「必学工具」清单,以及 PI 的招人/课题决策
Anthropic Claude Science + GeneBench-Pro 的同周对位:一边是「科学家用 AI」的工具,一边是「AI 当科学家」的能力评估——两者未来 6-12 个月的竞争会决定「研究级 AI」的产品形态(工具 vs 替代)
「年底被刷满」的最早突破者:是哪一家/哪一代模型/哪个档位最先突破 50%?是闭源前沿(GPT-6、Claude Opus 下一代、Gemini 新档)还是某个意外开源权重?突破时点会反向校准「前沿」定义

Claim Audit

GeneBench-Pro 是首个把『研究级智能体』评估从『答题』推向『研究决策』的合成基准——用已知因果结构直接模拟,绕开作者偏好与真实数据噪声

置信度：high

OpenAI 官方博客明确:每题采用合成数据集,因果结构已知、可直接模拟,避免作者偏好的任意性
10 大域、21 个子域、129 道题,跨度覆盖从法医遗传学(N=2)到临床/PGx/诊断(N=26)的完整研究链路

『因果结构已知』只保证模拟可控,不代表题目覆盖了真实研究里所有复杂干扰项;UCLA 专家的评价侧重『难度上限』而非『生态效度』,题目与真实研究的偏差需后续外部复现验证

GPT-5.6 Sol 在 GeneBench-Pro 高档通过率 28.7%(Pro 31.5%),相对原始 GeneBench 提升约 6 倍,但仍未过 50%——研究级智能体仍在『早期阶段』

置信度：high

OpenAI 官方博客:高档 28.7%、Pro 模式 31.5%、最低档个位数;GPT-5 在原始 GeneBench 低于 5%
GPT-5.6 Sol 高档解题数约为 GPT-5.2 的 6 倍、token 消耗约 2/3——效率与效果同步提升

通过率为厂商自报口径,且评测在『GPT 最有利的推理档』下进行;开源模型(GLM 5.2 等)在同基准上的具体数字未在博客中给出,横向比较的精确幅度待 Artificial Analysis 第三方复现

GPT 与开源权重在『科研推理』上的差距,显著大于在『代码基准』上的差距——说明开源生态仍偏向代码、可工程化任务,而研究判断仍是闭源前沿的主场

置信度：medium

OpenAI 官方博客明确点名:在 GeneBench-Pro 上 GPT 与开源权重(GLM 5.2 等)的科研推理差距,显著大于在传统代码基准上的差距
Artificial Analysis 智能指数显示,GLM 5.2 在代码/规划类任务接近闭源前沿,但在『研究判断』类任务上仍滞后

OpenAI 自身是闭源厂商,该判断带有『证明自家研究能力不可替代』的立场;具体倍数差距未在博客中量化,需第三方独立评测印证

GeneBench-Pro 的人力/算力成本倒挂(数千美元/题 vs 几美元/题),首次把『研究级任务』拉入 AI 可负担区间,会改变实验室预算结构与研究生培养逻辑

置信度：medium

OpenAI 官方博客:人类专家估时 20-40 小时/题、$200/h 即每题数千美元;GPT-5.6 Sol 推理成本仅几美元/题
UCLA 专家评价『对没有资深导师反复指导的研究生来说都很难』,说明题目已逼近人类专家工作量的下限

『几美元/题』是 OpenAI 自报、未拆分档位与 token 数,且题目难度上限未必能直接外推到『完整研究项目』;人力成本是否被『AI + 专家复核』的混合工作流完全替代,仍需 12-18 个月观察

Timeline

2025 上半年

OpenAI 发布 GeneBench 原始版(计算生物学智能体基准),GPT-5 在该基准上得分低于 5%,暴露『研究级任务』与『答题级任务』之间的能力鸿沟

2025 下半年

OpenAI 内部启动 GeneBench-Pro 立项,转向『已知因果结构的合成题』,解决原始版依赖真实数据、作者偏好、难复现等痛点

2026-06 中下旬

UCLA Alexander Strudwick Young 等外部专家完成 129 题审核,给出『对没有资深导师反复指导的研究生来说都很难』的定性评价

2026-07-01

OpenAI 正式发布 GeneBench-Pro,公开 GPT-5.6 Sol 多档通过率、解题效率、开源题数与 Artificial Analysis 合作计划;10 题同步开源至 Hugging Face

2026 年内(预期)

OpenAI 预判 GeneBench-Pro 年底会被刷满;50 题将分批提供给 Artificial Analysis 做独立第三方评测,跟踪各模型前沿进展

Sources

official · OpenAI 官方博客:Introducing GeneBench-Pro 基准设计理念(已知因果结构的合成题)、10 大域/21 子域/129 题分布、GPT-5.6 Sol 多档通过率(28.7%/31.5%)、解题效率对比、专家评估耗时与时薪、UCLA 专家评价、开源计划与 Artificial Analysis 合作 official · OpenAI 官方 X 帖(GeneBench-Pro 发布) 官方对『研究级智能体』评估转向的对外口径、与传统答题基准的差异定位 official · Hugging Face:OpenAI 组织页 GeneBench-Pro 公开数据集(10 题)的发布渠道确认,用于社区复现与下游研究 benchmark · Artificial Analysis 官方页面 GeneBench-Pro 50 题将提供的第三方独立评测平台;Artificial Analysis 智能指数作为开源权重(GLM 5.2 等)横向对照 benchmark · Artificial Analysis:LLM 智能榜单开源权重智能指数(用于印证『GPT 与开源科研推理差距大于代码差距』) primary · UCLA Alexander Strudwick Young 公开资料 GeneBench-Pro 外部专家评审的权威背书;原话『对没有资深导师反复指导的研究生来说都很难』用于支撑『研究级难度』判断 official · OpenAI 官方 X 帖(GeneBench 原始版,2025) 原始 GeneBench 时间线与 GPT-5 <5% 得分纵向对比的来源

Watch Next

Artificial Analysis 拿到 50 题后的第三方独立复现:GPT-5.6 Sol 通过率是否被高估或低估?开源权重(GLM 5.2、MiniMax M3 等)在 GeneBench-Pro 上的具体得分与差距是否印证『科研推理差距 > 代码差距』
GPT-5.6 Sol 的 Pro 模式(31.5%)与最高档(28.7%)之间 2.8 个百分点的差,是否在更长时间推理预算下继续扩大——这关系到『思考 token 投资回报率』
Hugging Face 上 10 道开源题是否在 30 天内被社区复现并提交替代答案;若被多个独立方案逼近 GPT-5.6 Sol 水平,说明『已知因果结构合成题』仍存在数据泄露/过拟合空间
OpenAI 预判『年底被刷满』的判断:哪一家/哪一代模型/哪个档位最先突破 50%?是闭源前沿(GPT-6/Claude Opus 下一代)还是某个意外开源权重?
GeneBench-Pro 是否被纳入 OpenAI 后续模型(如 GPT-5.7、GPT-6)的发布前自评清单——若纳入,会显著抬高该基准在厂商决策中的权重
高校与研究机构是否把 GeneBench-Pro 纳入『AI 辅助研究』教学/选课参考——这会改变研究生培养的『必学工具』清单
『几美元/题』的推理成本是否随模型迭代持续下降,以及是否会出现专门针对 GeneBench-Pro 类任务优化的推理路径(微调/工具链)

待解问题

『已知因果结构合成题』能否完全模拟真实研究中的混杂变量、样本偏差与未知机制?题目与真实研究的『生态效度』差距有多大?
GPT-5.6 Sol 在 Pro 模式(31.5%)与最高档(28.7%)之间只差 2.8 个百分点,是否意味着更多思考 token 的边际收益已经接近饱和?在更长推理预算下还能涨多少?
开源模型(GLM 5.2、MiniMax M3 等)在 GeneBench-Pro 上的具体得分与差距,会印证还是挑战『GPT 与开源科研推理差距 > 代码差距』的判断?
如果『几美元/题』的推理成本持续下降,会不会出现『AI 生成初稿 + 专家复核』的混合工作流,反过来压低人类专家的市场价?研究生培养的『导师-学生』范式会如何重塑?
OpenAI 预判『年底被刷满』,但『刷满』的真正含义是什么——是 50% 通过率?还是 Pro 模式 80%?定义本身会影响后续模型的优化方向