Qwen-AgentWorld:用「语言世界模型」当 agent 的训练场,但「超 Opus 4.8」要拆开看

通义千问发布并开源了 Qwen-AgentWorld,自称是「第一个能在单一模型里模拟 7 类 agent 环境的原生语言世界模型」。它的核心做法是把「环境建模」——也就是预测「agent 做了某个动作之后,环境会返回什么」——当成从持续预训练(CPT)第一天起就纳入的训练目标,而不是后期补丁。开源的版本是 Qwen-AgentWorld-35B-A3B(MoE,35B 总参 / 3B 激活,256K 上下文,Apache 2.0),同时放出评测基准 AgentWorldBench。官方公告称它「在 AgentWorldBench 上超过 Claude Opus 4.8 与 GPT-5.4」——但把官方表格拆开看,真正超过两者的是参数更大、且未明确开源的 397B-A17B 旗舰(总分 58.71);开源的 35B 版本总分 56.39,实际上低于 GPT-5.4(58.25),与 Claude Opus 4.8(56.59)基本持平、略低 0.2 分。这篇报道的重点,是把「榜单话术」和「真正扎实的结果」分开。

发生了什么

Qwen-AgentWorld 提出的范式叫「先预测环境,再行动」(predict before you act)。传统 agent 训练是「观察 → 动作 → 真实环境返回结果」,需要真的去跑一个终端、一个浏览器、一个 Android 模拟器,既慢又贵;Qwen 的思路是训练一个语言模型,在内部用长链推理(long chain-of-thought)去模拟环境的下一步反馈——「观察 → 候选动作 → 世界模型预测环境会怎么回应」。这样一来,这个模型可以扮演两个角色:

解耦的环境模拟器:当作 RL 的「训练场」用。Qwen 称这种「以语言世界模型为环境」的可控仿真 RL(Controllable Sim RL),效果甚至超过在真实环境里训练。
统一的 agent 基座模型:世界模型训练本身充当「预热」(warm-up),不需要任何 agent 专项训练数据,就能把下游 agent 基准的表现整体抬高。

覆盖的 7 类环境是:MCP(工具调用)、Search(搜索)、Terminal(命令行)、SWE(软件工程)、Android、Web、OS——横跨纯文本工具调用和 GUI 图形界面两类交互。训练用了超过 1000 万条真实环境交互轨迹,走的是三段式流水线:CPT(注入环境状态转移的世界建模能力)→ SFT(激活「预测下一状态」的推理)→ RL(用混合「评分量规 + 规则」奖励、GSPO 算法打磨仿真保真度)。

配套的 AgentWorldBench 则换了个评测视角:它不评 agent「把任务做没做成」,而是评模型「把环境模拟得像不像」——对每一条预测出来的环境观测,从 Format(格式)、Factuality(事实性)、Consistency(一致性)、Realism(真实性)、Quality(质量) 五个维度打分,数据来自 5 个前沿模型在 9 个成熟基准上的真实交互。

关键数据:两张表,看清「超谁」和「值不值」

AgentWorldBench 总榜(节选,满分 100)

把官方模型卡的完整表格拆开,谁超过谁一目了然。注意:开源的是 35B,登顶的是 397B。

模型	是否开源	MCP	Terminal	SWE	OS	总分
Qwen-AgentWorld-397B-A17B	未明确	68.24	57.73	68.49	67.89	58.71
GPT-5.4	闭源	70.10	53.69	66.29	68.58	58.25
Claude Opus 4.6	闭源	69.90	57.51	64.55	70.20	57.80
Claude Opus 4.8	闭源	54.93	59.18	64.10	66.62	56.59
Qwen-AgentWorld-35B-A3B	✓ Apache 2.0	64.79	53.96	65.63	65.92	56.39
Claude Sonnet 4.6	闭源	70.00	56.98	64.52	63.17	56.04
Gemini 3.1 Pro	闭源	59.07	52.47	59.07	66.92	54.57
Kimi K2.6	开源	65.23	52.54	58.77	60.80	53.42
DeepSeek-V4-Pro	开源	63.27	51.26	59.44	63.70	52.97
GLM-5.1	开源	67.60	47.32	52.07	59.13	51.31
Qwen3.5-35B-A3B(同尺寸基座)	开源	57.87	46.13	47.58	56.27	47.73

几个被官方话术压缩掉的事实:

「超 Opus 4.8 与 GPT-5.4」成立的是 397B 旗舰(58.71 > GPT-5.4 的 58.25 > Opus 4.6 的 57.80 > Opus 4.8 的 56.59)。开源的 35B(56.39)低于 GPT-5.4 和 Opus 4.6,与 Opus 4.8 几乎打平(略低 0.2),只小幅领先 Sonnet 4.6。
同尺寸基座的提升才是干货:同样是 35B/3B 激活,基座 Qwen3.5-35B-A3B 只有 47.73,经过三段式世界模型训练后到 56.39,净增 +8.66 分——这是「环境建模当训练目标」最直接的证据,而不是和别家的横向对比。
一个反直觉细节:在这张榜上 Claude Opus 4.8(56.59)反而低于更早的 Opus 4.6(57.80)。这更像是 AgentWorldBench 这套「模拟环境」打分对某些模型行为敏感,而非 Opus 退步——也提醒大家:这是一个新基准,别当成通用能力排名。

世界模型「预热」对外部 agent 基准的零样本迁移(更值得看)

比榜单更扎实的,是下面这张表:用「单轮、非 agent」的世界模型 RL 预热,迁移到「多轮、工具调用」的真实 agent 任务上,不做任何 agent 专项训练,在 7 个外部、成熟基准上(含 3 个完全跨域)的增益。这些基准不是 Qwen 自己造的,可信度更高,且与 X 公告口径相互印证。

基准	SFT 基线	+ 世界模型 RL	增益
Terminal-Bench 2.0	33.25	39.55	+6.30
SWE-Bench Verified	64.47	67.86	+3.39
SWE-Bench Pro	42.18	47.42	+5.24
WideSearch(F1 Item)	33.38	46.17	+12.79
Claw-Eval	53.60	64.88	+11.28
QwenClawBench	39.76	49.43	+9.67
BFCL v4	62.29	71.25	+8.96

方法与口径细节(展开)

模型规格:Qwen-AgentWorld-35B-A3B,总参 35B、激活约 3B,MoE;上下文 262,144(256K);License Apache 2.0。论文同时提出 397B-A17B(总参 397B、激活约 17B),为「旗舰性能档」,但其权重的公开下载状态在发稿时不明确(其 HuggingFace 页面返回 401)。官方公告与第三方解读均把 35B 称为「开源版本」、397B 称为「头条性能版本」。
训练数据:超 1000 万条 7 类领域的真实环境交互轨迹。
三段式流水线:CPT(从状态转移动态 + 增强的专业语料注入世界建模能力)→ SFT(激活「下一状态预测」推理)→ RL(混合「评分量规 + 规则」奖励,GSPO)。
AgentWorldBench 口径:对预测出的环境观测,按 Format / Factuality / Consistency / Realism / Quality 五维打分(0–100);数据来自 5 个前沿模型在 9 个成熟基准上的真实交互。它度量「模拟环境的能力」,不等于「完成任务的能力」。
数字交叉核验:AgentWorldBench 总榜取自 HuggingFace 官方模型卡原始 README;迁移增益表取自 GitHub 仓库,并与 Qwen 官方 X 公告(Terminal-Bench +6.3、SWE-Bench +3.4、WideSearch +12.8、Claw-Eval +11.3、QwenClawBench +9.7、BFCL v4 +9.0)逐项吻合。

为何重要

把这件事放进 2026 年的行业脉络,它的意义不在「又一个开源模型刷了个榜」,而在给「agent 训练」提出了一条不同的省钱路线。

第一,这是「模型自带训练场」的思路。过去一年 agent 能力的进步,很大程度靠在真实/沙箱环境里做大规模 RL——跑真终端、真浏览器、真代码仓库,采集轨迹再训练。这条路又贵又慢,环境搭建和奖励工程是主要瓶颈。Qwen 的赌注是:与其搭真环境,不如训一个「语言世界模型」去模拟环境反馈,把 RL 的环境成本从「执行」降到「推理」。这其实是经典「基于模型的强化学习」(model-based RL,如游戏里的 World Models、Dreamer)在 LLM agent 领域的对应物——只不过 Qwen 把环境状态、动作、反馈全部用自然语言统一建模,做成一个语言模型的原生目标。

第二,真正的护城河指标不是 AgentWorldBench,而是迁移增益。AgentWorldBench 是 Qwen 自己造的、刚发布的新基准,而且它衡量的是「模拟环境像不像」——Opus、GPT 这些模型本来就不是为「扮演环境」优化的,拿它们在这套榜上的分数去比,有点「在自己主场比自己擅长的项目」。相比之下,Terminal-Bench、SWE-Bench、WideSearch、BFCL 这些都是业界公认的外部基准,世界模型预热在它们上面拿到 +3 到 +13 的零样本迁移增益,且不需要 agent 专项数据——如果这个结果稳得住,那才是「环境建模能当通用基座能力」的硬证据。

第三,开源生态的接力。同一时期,Gemma 4 两个半月下载破 2 亿、DeepSeek/GLM/Kimi/MiniMax 同台竞速,中国开源权重阵营在 agent 方向继续高频出牌。Qwen 这次额外给了「基准 + 方法配方」(CPT→SFT→RL 的世界建模流水线),对研究者价值不止于权重本身。当然,这也叠加着另一层背景:有从业者(如 Ethan Mollick)直言,美国监管完全有能力让本国公司「不使用、不托管」开放权重模型——技术领先和地缘可用性,是两条不一定同向的曲线。

日报观点

先说结论:Qwen-AgentWorld 的研究价值被它自己的营销标题拖累了。「超 Opus 4.8 与 GPT-5.4」这句话技术上没说错,但它指的是那个未明确开源的 397B 旗舰,而媒体和读者的注意力会自动挂到「开源的 35B」上——而开源 35B 在这张榜上其实低于 GPT-5.4、低于 Opus 4.6、和 Opus 4.8 打平偏下。这种「用旗舰的分数给开源版本贴金」的话术,在 2026 年的发布会里已经太常见,值得读者每次都拆开看。

但抛开标题,这篇工作里有一个真正有意思的东西:同尺寸基座 47.73 → 56.39 的 +8.66,以及在 7 个外部基准上 +3 到 +13 的零样本迁移。如果「把环境建模当预训练目标」真能像「指令跟随」「推理」那样,成为一种可迁移的基座能力,那么 agent RL 的成本结构会被改写——谁有最好的世界模型,谁就能用最低的成本造训练数据。这是比「刷榜」重要得多的一条线,也是这篇论文应该被记住的地方。

不过有三个必须泼的冷水。其一,AgentWorldBench 是「既当运动员又当裁判」:同一个团队发布的新基准,衡量的还是「模拟环境」这件 Qwen 专门训过、别家没训过的事,横向对比的公允性天然存疑;新基准公开后通常很快被过拟合。其二,模拟环境会「过期」:真实系统在变,世界模型学到的是某个时间点的环境快照,模拟保真度会随真实环境演化而衰减——你没法靠模拟覆盖真实世界里那条长尾的失败模式。其三,也是最关键的,安全无法被模拟掉:你可以模拟终端返回什么,但你模拟不了一个 agent 真的执行 rm -rf 之后的后果。模拟训练能让 agent 学会「怎么做」,却学不会「真实世界里这一步会不会闯祸」——真实的权限边界、沙箱隔离、人类确认,一个都省不掉。

所以我的判断是:把 Qwen-AgentWorld 当成一篇「方法论论文 + 一个能本地跑的 3B 激活模型 + 一套配方」来读,价值很高;把它当成「开源模型超越了 Opus 4.8」来读,会被误导。 对从业者,真正该抄的作业是那套「世界模型预热→零样本迁移」的训练范式,而不是榜单上的小数点。

接下来看什么

397B 旗舰到底开不开:官方公告只明说开源了 35B,397B 的权重下载状态发稿时不明(HF 页面 401)。它是否、何时以何种许可放出,决定了「超 Opus 4.8」这句话对开源社区有没有实际意义。
迁移增益能否被第三方复现:Terminal-Bench、SWE-Bench、BFCL 都是公开基准,社区很快能验证「世界模型预热」的 +3~+13 是否站得住——这比 AgentWorldBench 的自评分更关键。
AgentWorldBench 的过拟合速度:新基准公开后多久会被针对性刷分、其他厂商是否跟进提交,能看出它会不会沦为又一个被刷爆的内部榜。
「Sim RL」省钱的真实幅度:Qwen 称以世界模型为环境的 RL 优于真实环境训练,但缺少成本/样本效率的硬数字。后续若有「用模拟环境训练 vs 真实环境训练」的成本对比与失败率分析,才能判断这条路线的工程性价比。
模拟保真度的衰减曲线:真实工具/API/系统更新后,世界模型的模拟准确率掉得有多快、需要多频繁地用新轨迹再训——这决定了它是一次性的实验,还是可持续的基础设施。