研究论文

Qwen-AgentWorld:把「环境建模」做成第一性训练目标的语言世界模型

通义千问把世界模型搬进语言模型:7 类 agent 环境一个模型模拟,397B 档总分 58.71 反超 GPT-5.4

2026年6月24日 · 周三 深度报告 中置信 重要度 4/5

阿里通义千问在 6 月 23 日提交、6 月 24 日登上 HuggingFace 论文榜首的 Qwen-AgentWorld,把一个长期停留在机器人和具身智能语境里的概念——「世界模型」——搬进了纯语言模型,并把它当成训练 agent 的第一性目标。论文的主张很激进:不是先训练一个会行动的 agent,而是先训练一个会预测环境如何回应的模型。团队开源了两档 MoE 模型 Qwen-AgentWorld-35B-A3B(总参数 350 亿、激活 30 亿、256K 上下文)与 Qwen-AgentWorld-397B-A17B,称其为「首个能模拟 7 类 agent 环境的语言世界模型」,训练数据为超过 1000 万条真实交互轨迹,采用 CPT → SFT → RL 三阶段流水线。当日该论文以 136 upvotes 位列 HuggingFace Daily Papers 第一,显著领先第二名(61 票)。

按论文页给出的主榜数据,397B-A17B 档在自建的 AgentWorldBench 上拿到 58.71 的综合分,反超 GPT-5.4(58.25)与 Claude Opus 4.6(57.80),成为榜首;35B-A3B 档为 56.39。这是一个值得注意的信号:在「模拟环境」这件特定任务上,一个开源模型首次声称超过了头部闭源模型。

说明:本文为历史回溯补档,arXiv ID(2606.24597)与日期(2026-06-24)均为该批次内容的标注值。信源以 HuggingFace 当日论文页、arXiv 摘要、GitHub 开源仓库与 HF 当日榜单为主,均为非 X 一手或准一手来源;benchmark 数字以论文页与仓库 README 交叉印证,凡单一来源处已在文中标注。

发生了什么

Qwen-AgentWorld 想解决的核心问题是:训练 agent 需要环境,而真实环境昂贵、不可控、难以规模化。无论是让模型操作终端、调用工具、修代码,还是在网页和手机上点击,做强化学习都要一个能给出真实反馈的环境;搭建和维护这些环境的成本,往往是 agent 训练的真正瓶颈。

团队的答案是「让语言模型自己学会当环境」。论文把世界模型定义为「从观测和动作出发、预测环境动态」的系统,并把它确立为推理与规划的核心机制。在具体形态上,它要求模型在每一步先用长思维链预测环境的下一个状态,再决定动作——也就是论文反复强调的「先预测环境、再行动」范式。

整套训练分三段,论文用一句话概括为「CPT 注入、SFT 激活、RL 打磨」(CPT injects, SFT activates, RL sharpens):

  • CPT(持续预训练):注入通用的世界建模能力 / 环境知识;
  • SFT(监督微调):激活「预测下一状态」的推理行为;
  • RL(强化学习):用「混合 rubric 与规则的奖励」(hybrid rubric-and-rule rewards)打磨模拟保真度。

模型覆盖 7 类 agent 环境:MCP(工具协议)、Search(搜索)、Terminal(终端)、SWE(软件工程)、Android、Web 与 OS。值得强调的是,这是用一个模型统一模拟这 7 类环境,而非 7 个专用模拟器拼装。

配套发布的 AgentWorldBench 则是一把尺子:它从 5 个前沿模型9 个成熟基准上的真实交互中构建,从 5 个维度评估世界建模质量——据仓库 README,这 5 个维度为 Format(格式)、Factuality(事实性)、Consistency(一致性)、Realism(真实性)、Quality(质量)。换句话说,它衡量的不是「agent 干得好不好」,而是「模拟器像不像真环境」。

论文给出两条把世界模型变现的路径:

  1. 作为解耦的环境模拟器:替代真实环境做可规模化、可控的 agentic RL,论文称其增益超过单纯用真实环境训练;
  2. 作为统一的 agent 基础模型:把世界建模训练当作「预热」(warm-up),在 7 类 agent 基准上整体提升下游表现。

关键数据 / 技术细节

AgentWorldBench 主榜(综合分,5 维度均值,数字源自论文页,GitHub README 印证前几名):

模型AgentWorldBench 综合分备注
Qwen-AgentWorld-397B-A17B58.71榜首,反超全部闭源前沿模型
GPT-5.458.25闭源最强之一
Claude Opus 4.657.80GUI 域领先
Claude Opus 4.856.59
Qwen-AgentWorld-35B-A3B56.39小档,激活仅 3B

世界模型训练带来的增益(对比未经 LWM 训练的基座):

模型训练前训练后提升
397B-A17B54.7458.71+3.97
35B-A3B47.7356.39+8.66

分域看,论文指出文本类环境是强项——Terminal 与 SWE 表现突出(如 SWE 一档达 68.49、MCP 达 70.10);而 Search 是所有模型公认最难的域,最佳分仅约 37.82,大致只有 SWE / MCP 最佳分的一半。GUI 类(Android/Web/OS)则由 Claude Opus 系列领先,397B 档在该类排到第五(59.69)。这说明「模拟环境」这件事本身存在明显的难度分层:确定性高、反馈清晰的终端 / 代码域容易学,开放、噪声大的搜索域最难。

两条应用路径的实测增益(均源自论文页,属单一来源,待复现):

应用代表基准增益
环境模拟器(Sim RL)MCPMark(受控模拟)+12.3
环境模拟器(Sim RL)QwenClawBench+7.1
环境模拟器(Sim RL)WideSearch / F1 Item(虚构世界,35B)+16.29
Agent 基础模型(LWM 预热)7 项基准平均+8.96
Agent 基础模型(LWM 预热)BFCL v4(域外)+9.0

论文还报告了一个关键对照:在虚构世界(fictional worlds)设定下,可控的 Sim RL 达到 50.3%,而 Real RL 为 45.6%——这是「模拟器训练增益超过真实环境」这一核心主张的直接证据。此外,跨域泛化也被验证:仅在 Terminal 上做 RL,就能带动 SWE(+11.5)、Search(+11.8)、MCP(+5.0)同步提升;环境预测准确率则从 69.9% 升到 78.3%。

模型工程侧:35B-A3B 为 MoE 架构、256K 上下文,以 Apache-2.0 协议开源,支持 SGLang、vLLM、Transformers 推理(数据源自 GitHub README)。

为何重要

把这件事放进 2025 年下半年到 2026 年的脉络里,它击中了 agent 训练最贵的一环。过去一年行业的共识是:模型本身的能力上限,越来越受限于能不能拿到足够多、足够真、足够可控的环境反馈去做强化学习。真实环境(真终端、真浏览器、真 API)既慢又脆,沙箱化代价高;而纯靠静态轨迹做模仿学习又触及天花板。Qwen-AgentWorld 的思路是把这个瓶颈「内化」——让模型自己长出一个可微调、可批量、可控制的环境。

这与具身智能 / 机器人领域近年的「世界模型」浪潮(用模型预测物理世界动态,在想象中训练策略)是同一套方法论,只是迁移到了数字 agent:把「物理动态」换成「终端会回什么、API 会返回什么、网页会跳到哪」。如果这条路成立,它的吸引力在于经济性——模拟器可以无限次回放、可以注入对抗样本、可以在虚构世界里训练而不污染真实系统。论文给出的「Sim RL 50.3% > Real RL 45.6%」正是想证明:模拟不仅更便宜,在某些设定下甚至更有效。

对开源生态,这是一个分量不轻的动作。397B 档声称在 AgentWorldBench 上反超 GPT-5.4 与 Claude Opus——尽管这是在「环境模拟」这一狭窄任务、且是论文方自建的基准上,但它给了开源阵营一个在 agent 基础设施层面叫板闭源的具体抓手。更实际的是 35B-A3B 档:激活仅 3B、256K 上下文、Apache-2.0,意味着中小团队也能本地跑一个「环境模拟器」来给自己的 agent 做 RL,而不必租用昂贵的真实环境集群。

早报观点

Qwen-AgentWorld 真正有意思的地方,不是又多了两个开源权重,而是它把「环境」从 agent 训练的外部成本重新定义成了模型的内部能力。如果一个语言模型能足够逼真地模拟终端、工具、网页会如何回应,那么 agent 训练的范式就可能从「搭环境 + 跑 RL」变成「训世界模型 + 在想象里跑 RL」。这是一个方向性的赌注,值得认真对待。

但要给三层 caveat。第一,基准是自家造的。AgentWorldBench 由论文方定义、用 5 个前沿模型的交互构建,「397B 反超 GPT-5.4」这种结论在自建尺子上天然占便宜——它衡量的是「谁更会当环境」,不等于「谁的 agent 更强」。在第三方、与论文方无利益关系的 benchmark 上复现之前,这个数字应被当作「论文方主张」而非「行业定论」。第二,模拟器最危险的失效模式是『看起来对』。世界模型一旦在分布外、长程任务上累积误差,agent 会在一个自洽但失真的幻觉环境里学到错误策略,而且很难被即时发现——论文用 5 维度(尤其 Factuality 与 Consistency)去约束保真度,但 Search 域最佳分只有约 37.82、不到 SWE 一半,恰恰暴露了开放域模拟的脆弱。第三,「Sim RL > Real RL」目前是在虚构世界设定下成立的单点证据(50.3% vs 45.6%),它证明了可控性的价值,但不能直接外推到「模拟可以全面替代真实环境」。

我的判断是:这更像 agent 训练基础设施的一次范式提案,而非一个即插即用的 SOTA agent。它的长期价值取决于两点——一是世界模型的保真度能否在真正长程、开放的任务上守住(而不是在终端 / 代码这种确定性高的域刷分),二是「先预测环境、再行动」这套范式能否被论文方之外的团队独立复现出同等增益。对开源阵营来说,即便最终证明模拟只能覆盖一部分场景,把环境建模做成可训练、可开源的能力,本身就降低了 agent RL 的门槛——这个外溢价值,可能比榜单上那 0.46 分的领先更重要。

接下来看什么

  • 第三方基准复现:AgentWorldBench 是论文方自建,关注是否有独立团队在 Tau-bench、SWE-bench、BFCL 等公认基准上,验证「用 Qwen-AgentWorld 当模拟器做 RL」能否复现论文宣称的增益,以及「397B 反超 GPT-5.4」的稳健性。
  • 保真度在长程任务上的衰减:重点看 Search 这类开放域(当前最佳约 37.82)和多步长程任务里,模拟误差会不会累积到让 agent 学坏;Factuality / Consistency 两个维度是观察窗口。
  • 社区实跑反馈:35B-A3B 是 Apache-2.0、256K 上下文、激活 3B,门槛不高。关注开源社区把它接入自己 agent 流水线后的真实体感——尤其「模拟环境替代真实环境」在生产任务里到底省了多少、坑在哪。
  • 范式被采纳的程度:「先预测环境、再行动」会不会被其他开源 / 闭源团队借鉴进 agent 训练栈,是判断这是一次「方法论拐点」还是「一篇高票论文」的关键。
  • 与真实环境的成本 / 效果曲线:后续若有论文给出「模拟 RL vs 真实 RL」在更多、非虚构场景下的系统对比,才能判断模拟到底是替代品还是补充品。