过去一年,「agent 模型怎么炼」基本是个黑盒:大厂发布会上反复出现 SWE-Bench、Terminal-Bench 的漂亮分数,却几乎没人公开「这些 agent 的训练数据是怎么来的、用什么配方筛出来的」。2026 年 6 月 23 日提交到 arXiv 的 OpenThoughts-Agent(OT-Agent,arXiv:2606.24855) 论文《Data Recipes for Agentic Models》,正是冲着这块公开知识空白来的——它把「为通用 agent 策展训练数据」的整条流水线完全开源,并用实证给出一套可复现的配方。
做法很「实验科学」:团队跑了 100 多组受控消融实验,逐个变量地拆解数据流水线的每一阶段,再据此组装出一个 10 万样本 的训练集,拿来微调 Qwen3-32B。结果是,这个模型在 七项 agent 基准 上拿到 44.8% 的平均准确率,比此前最强的「开源数据」模型 Nemotron-Terminal-32B(40.9%) 高出 3.9 个百分点;其中差距最大的 SWE-Bench Verified 上,OT-Agent-32B 报 54.0%,而 Nemotron-Terminal-32B 为 41.9%——领先约 12 个点。论文同时强调:在算力受控的对比里,这套数据「在每一个训练集规模上都跑赢了其它开源数据集」。所有训练集、流水线代码、实验数据和模型,全部公开。
发生了什么
OT-Agent 不是又一个「我们训了个更强的 agent」的发布,而是一篇方法论论文,核心贡献是把数据配方本身当作研究对象。它延续了 OpenThoughts 团队的一贯路数:此前他们做的是开源推理数据配方(代表作 OpenThoughts3),这次把同样的「跑大量消融、找最优配方、全部开源」的方法迁移到了 agentic(工具调用 / 多轮交互 / 软件工程任务) 这个更难的领域。
论文的主体是一套多阶段的 SFT(监督微调)数据配方,每一个环节都做了对照实验,试图回答「为了让一个通用 agent 变强,数据这一侧到底什么最重要」。几个被反复验证、也最反直觉的发现:
- 任务来源(instructions)的选择是最重要的因素之一。论文原话是「the choice of instructions is among the most important factors」——也就是说,你喂给模型去解的任务从哪来、怎么混合,比很多人以为的模型/超参更关键。配方里把多个任务来源做混合,论文报告混合 top-4 到 top-8 个来源时效果最好。
- 最强的模型不一定是最好的教师。论文明确写道「The strongest model by benchmark performance does not necessarily make the best teacher」。在蒸馏式数据生成里,用来产生训练轨迹的「教师模型」并不是越强越好——据论文的消融,GLM-4.7 是表现最好的教师,尽管它在通用 benchmark 上并非最强的那一个。
- 轨迹过滤显著有效,而且方向很具体:对训练数据做 LLM 过滤 能再带来约 +3 个百分点 的增益;而删掉那些「模型回合数过少」的轨迹(论文提到「filtering for traces with more model turns improved training sets」,任务侧给出的阈值是少于 5 轮的轨迹)带来的增益最大——直觉上,真正考验 agent 的是多轮、需要反复试探和纠错的长任务,短轨迹信息量低、甚至是噪声。
除了 SFT,论文还做了 RL(强化学习) 这条线:在一个 8B 模型上,用 RLOO 走完整套 RL 流程,相比基座模型提升了 18 分;SFT + RL 组合后的 8B 模型,超过了同量级(≤8B)里最强的基线。
配套开源的不只是论文。从项目主页和 GitHub 仓库看,放出来的产物包括:模型(OpenThinker-Agent-v1 及其 SFT-only 版本)、SFT 轨迹数据集、RL 环境数据集、自建的轻量评测基准(OpenThoughts-TBLite),以及一整套训练 / 评测基础设施代码——数据生成基于 Ray + vLLM,SFT 基于 LLaMA-Factory,RL 基于 SkyRL,评测支持本地、集群(Harbor + Daytona)到云端多档运行。这是一套「拿来就能复跑」的工程栈,而不是只发一篇 PDF。
关键数据 / 技术细节
下表是论文给出的核心 benchmark 对比(OT-Agent-32B 对最强开源数据基线 Nemotron-Terminal-32B):
| 指标 | OT-Agent-32B | Nemotron-Terminal-32B | 差距 |
|---|---|---|---|
| 七项 agent 基准均分 | 44.8% | 40.9% | +3.9pp |
| SWE-Bench Verified | 54.0% | 41.9% | +12.1pp |
| Terminal-Bench 2.0 | 26.2% | 25.1% | +1.1pp |
注:据 arXiv 摘要,10 万样本规模的模型在 SWE-Bench Verified-100 子集上报 55.7%、在自建的 OT-TBLite 上报 41.3%;这些是不同评测切片,与上表的 54.0% 不冲突,但口径不同,引用时需区分。
数据配方各环节的消融结论(均来自论文,部分细粒度数字以论文表格为准):
| 配方环节 | 关键结论 | 量化增益 |
|---|---|---|
| 任务来源混合 | 混合 top-4 ~ top-8 个来源最佳 | 论文称「最重要因素之一」 |
| LLM 过滤 | 对轨迹做 LLM 质量过滤有效 | 约 +3pp |
| 教师模型选择 | GLM-4.7 是最佳教师(并非最强模型) | — |
| 轨迹回合数过滤 | 删除少于 5 轮的轨迹增益最大 | 论文称「增益最大」 |
| RL(8B,RLOO) | 全流程 RL 相比基座提升 | +18 分 |
规模上,这是一项大协作:论文署名约 50 位作者、来自 28 家机构,包括 UC Berkeley、Stanford、LAION、Bespoke Labs、Laude Institute、UT Austin、TU Munich、NYU 等学术与开源组织。GitHub 仓库采用 Apache-2.0 许可,定位为「为训练 AI agent 提供数据配方与稳健基础设施」,自陈是一个仍在快速演进的研究代码库。
为何重要
这件事的价值,不在「又多了一个能刷榜的 agent」,而在它把闭源厂商默会的「数据手艺」变成了可检验、可复现的公开知识。
第一,它补的是「数据侧」的空白,而非「模型侧」。这两年开源社区在模型权重上追得很紧(Qwen、GLM、DeepSeek 等),但「拿什么数据、用什么配方把一个基座调成能干活的 agent」一直是各家的护城河。OT-Agent 用 100+ 组受控消融,把「任务来源 > 教师模型 > 过滤策略」这条优先级链摆到了台面上,等于给所有想自己训 agent 的团队发了一份经过验证的操作手册。对学界尤其重要:没有这种公开配方,复现性研究几乎无从谈起。
第二,几个结论直接挑战了「越大越强」的直觉。「最强模型不一定是最好的教师」「短轨迹该删、长轨迹更值钱」「任务从哪来比想象中更关键」——这些都不是拍脑袋能得到的,而是跑出来的。它把行业里一些靠经验流传的「玄学」做成了实证,也提醒从业者:在 agent 这个方向,数据策展(data curation)的杠杆可能高于盲目堆参数或堆算力。GLM-4.7 作为最佳教师胜过更强的模型,这一点尤其值得做数据蒸馏的团队复核——它意味着教师的「轨迹风格 / 可学习性」可能比绝对能力更重要。
第三,12 个点的 SWE-Bench 领先,是在「开源数据」这个限定赛道里取得的。和闭源前沿模型相比,OT-Agent-32B 的绝对分数未必领先;但它的对照对象是同样公开数据的 Nemotron-Terminal-32B,在这个公平可比的口径下拉开了显著差距,证明「配方」本身能转化为实打实的能力增量,而不只是数据量的堆叠——论文特别强调「在每个训练集规模上都跑赢」,正是为了排除「我只是数据更多」的解释。
我们的判断:OT-Agent 最大的意义是把 agent 训练从「炼丹」推向「工程」。过去厂商发布会只给你看 benchmark 的果,不给你看数据的因;这篇论文反过来,几乎只讲因——而且把流水线、实验数据、模型一起开源。对任何想自建 agent 能力、但请不起一支前沿数据团队的公司和实验室来说,这是一份比模型权重更稀缺的东西:可复现的方法论。
但要给几个 caveat。其一,结论的可迁移性需要时间检验。「GLM-4.7 是最佳教师」「混合 top-4~8 来源最优」「删 5 轮以下轨迹」这些数字,是在 Qwen3-32B 这个特定基座、特定任务分布上跑出来的;换一个基座、换一批下游任务,最优配方未必照搬。论文给的是「怎么做实验找配方」的范式,不是「照抄这组数字就行」的标准答案——这恰恰是它作为方法论论文的价值所在,但也容易被误读成「拿来即用的最优解」。
其二,部分细粒度消融数字我们只做到了单源(论文/HF 论文页)印证。均分 44.8% vs 40.9%、SWE-Bench 54.0% vs 41.9% 这两组核心数字在 HuggingFace 论文页与 arXiv 摘要两处一致;但「+3pp 的 LLM 过滤增益」「8B 上 RLOO +18 分」「GLM-4.7 最佳教师」这类细节目前主要来自论文自述,引用时按论文表格为准。这是一项历史回溯报道,信源以当日 arXiv/HF 论文页 + 可检索的项目主页与 GitHub 仓库为主,未做更广的第三方复现核查。
其三,「开源数据最强」是个有边界的头衔。OT-Agent 赢的是「开源数据」这条赛道,和闭源前沿 agent 之间大概率仍有差距;它的价值在于把开源这条线的天花板抬高、并公开了抬高的方法,而不是宣称追平了第一梯队。把它读成「开源 agent 已经反超大厂」会是误读。
最后一点判断:这类工作的真正赢家,可能不是 OpenThoughts 自己,而是整个想做垂直 agent 的中小团队。配方一旦公开,蒸馏一个「够用」的领域 agent 的门槛会明显下降。这对闭源厂商的「数据手艺」护城河是一次实质冲刷——模型权重可以不开,但当「怎么用数据把模型调成 agent」被一篇论文摊开,差异化就更难只靠数据工艺来维持了。
接下来看什么
- 第三方复现:有没有独立团队用 OT-Agent 公开的配方,在别的基座(如 Llama、GLM 系列)上复跑,验证「GLM-4.7 最佳教师」「top-4~8 来源混合」等结论是否可迁移。这是判断它是「通用配方」还是「Qwen3 专属」的关键。
- 配方 vs 闭源前沿的真实差距:OT-Agent-32B 与同期闭源 agent(在 SWE-Bench Verified / Terminal-Bench 上)的绝对分数对比,看「开源数据天花板」到底离第一梯队多远。
- RL 线的后续:论文 RL 部分目前停在 8B(RLOO +18 分)。32B 乃至更大规模上 SFT+RL 的配方是否同样成立、收益是否仍显著,是下一个值得盯的节点。
- 生态采用度:GitHub 仓库的 star / fork 增长、以及有多少下游垂直 agent 项目开始引用 OT-Agent 的数据集和流水线——这是衡量「方法论是否真被用起来」的硬指标。
- OpenThoughts 系列的下一篇:团队从推理数据(OpenThoughts3)走到 agent 数据(OT-Agent),下一步会不会把配方方法论推向多模态 agent 或更长程的任务。