AI 日报
模型发布

Qwen-AgentWorld:用「语言世界模型」当 agent 的训练场,但「超 Opus 4.8」要拆开看

通义千问开源原生语言世界模型 Qwen-AgentWorld,用单一模型模拟 MCP/Search/Terminal/SWE/Web/OS/Android 共 7 类 agent 环境,把「环境建模」当成从预训练第一天起的目标。开源 35B 总参/3B 激活的 MoE(256K 上下文)与 AgentWorldBench。核查后:真正超过 Opus 4.8 与 GPT-5.4 的是未明确开源的 397B 旗舰(58.71),开源的 35B(56.39)仅与 Opus 4.8 持平偏下;但「世界模型预热」对 7 项外部 agent 基准的零样本迁移增益(WideSearch +12.8、Claw-Eval +11.3)是更扎实的看点。

2026年6月26日 · 周五 · 深度调研

通义千问发布并开源了 Qwen-AgentWorld,自称是「第一个能在单一模型里模拟 7 类 agent 环境的原生语言世界模型」。它的核心做法是把「环境建模」——也就是预测「agent 做了某个动作之后,环境会返回什么」——当成从持续预训练(CPT)第一天起就纳入的训练目标,而不是后期补丁。开源的版本是 Qwen-AgentWorld-35B-A3B(MoE,35B 总参 / 3B 激活,256K 上下文,Apache 2.0),同时放出评测基准 AgentWorldBench。官方公告称它「在 AgentWorldBench 上超过 Claude Opus 4.8 与 GPT-5.4」——但把官方表格拆开看,真正超过两者的是参数更大、且未明确开源的 397B-A17B 旗舰(总分 58.71);开源的 35B 版本总分 56.39,实际上低于 GPT-5.4(58.25),与 Claude Opus 4.8(56.59)基本持平、略低 0.2 分。这篇报道的重点,是把「榜单话术」和「真正扎实的结果」分开。

发生了什么

Qwen-AgentWorld 提出的范式叫「先预测环境,再行动」(predict before you act)。传统 agent 训练是「观察 → 动作 → 真实环境返回结果」,需要真的去跑一个终端、一个浏览器、一个 Android 模拟器,既慢又贵;Qwen 的思路是训练一个语言模型,在内部用长链推理(long chain-of-thought)去模拟环境的下一步反馈——「观察 → 候选动作 → 世界模型预测环境会怎么回应」。这样一来,这个模型可以扮演两个角色:

覆盖的 7 类环境是:MCP(工具调用)、Search(搜索)、Terminal(命令行)、SWE(软件工程)、Android、Web、OS——横跨纯文本工具调用和 GUI 图形界面两类交互。训练用了超过 1000 万条真实环境交互轨迹,走的是三段式流水线:CPT(注入环境状态转移的世界建模能力)→ SFT(激活「预测下一状态」的推理)→ RL(用混合「评分量规 + 规则」奖励、GSPO 算法打磨仿真保真度)。

配套的 AgentWorldBench 则换了个评测视角:它不评 agent「把任务做没做成」,而是评模型「把环境模拟得像不像」——对每一条预测出来的环境观测,从 Format(格式)、Factuality(事实性)、Consistency(一致性)、Realism(真实性)、Quality(质量) 五个维度打分,数据来自 5 个前沿模型在 9 个成熟基准上的真实交互。

关键数据:两张表,看清「超谁」和「值不值」

AgentWorldBench 总榜(节选,满分 100)

把官方模型卡的完整表格拆开,谁超过谁一目了然。注意:开源的是 35B,登顶的是 397B

模型是否开源MCPTerminalSWEOS总分
Qwen-AgentWorld-397B-A17B未明确68.2457.7368.4967.8958.71
GPT-5.4闭源70.1053.6966.2968.5858.25
Claude Opus 4.6闭源69.9057.5164.5570.2057.80
Claude Opus 4.8闭源54.9359.1864.1066.6256.59
Qwen-AgentWorld-35B-A3B✓ Apache 2.064.7953.9665.6365.9256.39
Claude Sonnet 4.6闭源70.0056.9864.5263.1756.04
Gemini 3.1 Pro闭源59.0752.4759.0766.9254.57
Kimi K2.6开源65.2352.5458.7760.8053.42
DeepSeek-V4-Pro开源63.2751.2659.4463.7052.97
GLM-5.1开源67.6047.3252.0759.1351.31
Qwen3.5-35B-A3B(同尺寸基座)开源57.8746.1347.5856.2747.73

几个被官方话术压缩掉的事实:

世界模型「预热」对外部 agent 基准的零样本迁移(更值得看)

比榜单更扎实的,是下面这张表:用「单轮、非 agent」的世界模型 RL 预热,迁移到「多轮、工具调用」的真实 agent 任务上,不做任何 agent 专项训练,在 7 个外部、成熟基准上(含 3 个完全跨域)的增益。这些基准不是 Qwen 自己造的,可信度更高,且与 X 公告口径相互印证。

基准SFT 基线+ 世界模型 RL增益
Terminal-Bench 2.033.2539.55+6.30
SWE-Bench Verified64.4767.86+3.39
SWE-Bench Pro42.1847.42+5.24
WideSearch(F1 Item)33.3846.17+12.79
Claw-Eval53.6064.88+11.28
QwenClawBench39.7649.43+9.67
BFCL v462.2971.25+8.96
方法与口径细节(展开)
  • 模型规格:Qwen-AgentWorld-35B-A3B,总参 35B、激活约 3B,MoE;上下文 262,144(256K);License Apache 2.0。论文同时提出 397B-A17B(总参 397B、激活约 17B),为「旗舰性能档」,但其权重的公开下载状态在发稿时不明确(其 HuggingFace 页面返回 401)。官方公告与第三方解读均把 35B 称为「开源版本」、397B 称为「头条性能版本」。
  • 训练数据:超 1000 万条 7 类领域的真实环境交互轨迹。
  • 三段式流水线:CPT(从状态转移动态 + 增强的专业语料注入世界建模能力)→ SFT(激活「下一状态预测」推理)→ RL(混合「评分量规 + 规则」奖励,GSPO)。
  • AgentWorldBench 口径:对预测出的环境观测,按 Format / Factuality / Consistency / Realism / Quality 五维打分(0–100);数据来自 5 个前沿模型在 9 个成熟基准上的真实交互。它度量「模拟环境的能力」,不等于「完成任务的能力」。
  • 数字交叉核验:AgentWorldBench 总榜取自 HuggingFace 官方模型卡原始 README;迁移增益表取自 GitHub 仓库,并与 Qwen 官方 X 公告(Terminal-Bench +6.3、SWE-Bench +3.4、WideSearch +12.8、Claw-Eval +11.3、QwenClawBench +9.7、BFCL v4 +9.0)逐项吻合。

为何重要

把这件事放进 2026 年的行业脉络,它的意义不在「又一个开源模型刷了个榜」,而在给「agent 训练」提出了一条不同的省钱路线

第一,这是「模型自带训练场」的思路。过去一年 agent 能力的进步,很大程度靠在真实/沙箱环境里做大规模 RL——跑真终端、真浏览器、真代码仓库,采集轨迹再训练。这条路又贵又慢,环境搭建和奖励工程是主要瓶颈。Qwen 的赌注是:与其搭真环境,不如训一个「语言世界模型」去模拟环境反馈,把 RL 的环境成本从「执行」降到「推理」。这其实是经典「基于模型的强化学习」(model-based RL,如游戏里的 World Models、Dreamer)在 LLM agent 领域的对应物——只不过 Qwen 把环境状态、动作、反馈全部用自然语言统一建模,做成一个语言模型的原生目标。

第二,真正的护城河指标不是 AgentWorldBench,而是迁移增益。AgentWorldBench 是 Qwen 自己造的、刚发布的新基准,而且它衡量的是「模拟环境像不像」——Opus、GPT 这些模型本来就不是为「扮演环境」优化的,拿它们在这套榜上的分数去比,有点「在自己主场比自己擅长的项目」。相比之下,Terminal-Bench、SWE-Bench、WideSearch、BFCL 这些都是业界公认的外部基准,世界模型预热在它们上面拿到 +3 到 +13 的零样本迁移增益,且不需要 agent 专项数据——如果这个结果稳得住,那才是「环境建模能当通用基座能力」的硬证据。

第三,开源生态的接力。同一时期,Gemma 4 两个半月下载破 2 亿、DeepSeek/GLM/Kimi/MiniMax 同台竞速,中国开源权重阵营在 agent 方向继续高频出牌。Qwen 这次额外给了「基准 + 方法配方」(CPT→SFT→RL 的世界建模流水线),对研究者价值不止于权重本身。当然,这也叠加着另一层背景:有从业者(如 Ethan Mollick)直言,美国监管完全有能力让本国公司「不使用、不托管」开放权重模型——技术领先和地缘可用性,是两条不一定同向的曲线。

日报观点

先说结论:Qwen-AgentWorld 的研究价值被它自己的营销标题拖累了。「超 Opus 4.8 与 GPT-5.4」这句话技术上没说错,但它指的是那个未明确开源的 397B 旗舰,而媒体和读者的注意力会自动挂到「开源的 35B」上——而开源 35B 在这张榜上其实低于 GPT-5.4、低于 Opus 4.6、和 Opus 4.8 打平偏下。这种「用旗舰的分数给开源版本贴金」的话术,在 2026 年的发布会里已经太常见,值得读者每次都拆开看。

但抛开标题,这篇工作里有一个真正有意思的东西:同尺寸基座 47.73 → 56.39 的 +8.66,以及在 7 个外部基准上 +3 到 +13 的零样本迁移。如果「把环境建模当预训练目标」真能像「指令跟随」「推理」那样,成为一种可迁移的基座能力,那么 agent RL 的成本结构会被改写——谁有最好的世界模型,谁就能用最低的成本造训练数据。这是比「刷榜」重要得多的一条线,也是这篇论文应该被记住的地方。

不过有三个必须泼的冷水。其一,AgentWorldBench 是「既当运动员又当裁判」:同一个团队发布的新基准,衡量的还是「模拟环境」这件 Qwen 专门训过、别家没训过的事,横向对比的公允性天然存疑;新基准公开后通常很快被过拟合。其二,模拟环境会「过期」:真实系统在变,世界模型学到的是某个时间点的环境快照,模拟保真度会随真实环境演化而衰减——你没法靠模拟覆盖真实世界里那条长尾的失败模式。其三,也是最关键的,安全无法被模拟掉:你可以模拟终端返回什么,但你模拟不了一个 agent 真的执行 rm -rf 之后的后果。模拟训练能让 agent 学会「怎么做」,却学不会「真实世界里这一步会不会闯祸」——真实的权限边界、沙箱隔离、人类确认,一个都省不掉。

所以我的判断是:把 Qwen-AgentWorld 当成一篇「方法论论文 + 一个能本地跑的 3B 激活模型 + 一套配方」来读,价值很高;把它当成「开源模型超越了 Opus 4.8」来读,会被误导。 对从业者,真正该抄的作业是那套「世界模型预热→零样本迁移」的训练范式,而不是榜单上的小数点。

接下来看什么

一手来源