通义千问发布并开源了 Qwen-AgentWorld,自称是「第一个能在单一模型里模拟 7 类 agent 环境的原生语言世界模型」。它的核心做法是把「环境建模」——也就是预测「agent 做了某个动作之后,环境会返回什么」——当成从持续预训练(CPT)第一天起就纳入的训练目标,而不是后期补丁。开源的版本是 Qwen-AgentWorld-35B-A3B(MoE,35B 总参 / 3B 激活,256K 上下文,Apache 2.0),同时放出评测基准 AgentWorldBench。官方公告称它「在 AgentWorldBench 上超过 Claude Opus 4.8 与 GPT-5.4」——但把官方表格拆开看,真正超过两者的是参数更大、且未明确开源的 397B-A17B 旗舰(总分 58.71);开源的 35B 版本总分 56.39,实际上低于 GPT-5.4(58.25),与 Claude Opus 4.8(56.59)基本持平、略低 0.2 分。这篇报道的重点,是把「榜单话术」和「真正扎实的结果」分开。
发生了什么
Qwen-AgentWorld 提出的范式叫「先预测环境,再行动」(predict before you act)。传统 agent 训练是「观察 → 动作 → 真实环境返回结果」,需要真的去跑一个终端、一个浏览器、一个 Android 模拟器,既慢又贵;Qwen 的思路是训练一个语言模型,在内部用长链推理(long chain-of-thought)去模拟环境的下一步反馈——「观察 → 候选动作 → 世界模型预测环境会怎么回应」。这样一来,这个模型可以扮演两个角色:
- 解耦的环境模拟器:当作 RL 的「训练场」用。Qwen 称这种「以语言世界模型为环境」的可控仿真 RL(Controllable Sim RL),效果甚至超过在真实环境里训练。
- 统一的 agent 基座模型:世界模型训练本身充当「预热」(warm-up),不需要任何 agent 专项训练数据,就能把下游 agent 基准的表现整体抬高。
覆盖的 7 类环境是:MCP(工具调用)、Search(搜索)、Terminal(命令行)、SWE(软件工程)、Android、Web、OS——横跨纯文本工具调用和 GUI 图形界面两类交互。训练用了超过 1000 万条真实环境交互轨迹,走的是三段式流水线:CPT(注入环境状态转移的世界建模能力)→ SFT(激活「预测下一状态」的推理)→ RL(用混合「评分量规 + 规则」奖励、GSPO 算法打磨仿真保真度)。
配套的 AgentWorldBench 则换了个评测视角:它不评 agent「把任务做没做成」,而是评模型「把环境模拟得像不像」——对每一条预测出来的环境观测,从 Format(格式)、Factuality(事实性)、Consistency(一致性)、Realism(真实性)、Quality(质量) 五个维度打分,数据来自 5 个前沿模型在 9 个成熟基准上的真实交互。
关键数据:两张表,看清「超谁」和「值不值」
AgentWorldBench 总榜(节选,满分 100)
把官方模型卡的完整表格拆开,谁超过谁一目了然。注意:开源的是 35B,登顶的是 397B。
| 模型 | 是否开源 | MCP | Terminal | SWE | OS | 总分 |
|---|---|---|---|---|---|---|
| Qwen-AgentWorld-397B-A17B | 未明确 | 68.24 | 57.73 | 68.49 | 67.89 | 58.71 |
| GPT-5.4 | 闭源 | 70.10 | 53.69 | 66.29 | 68.58 | 58.25 |
| Claude Opus 4.6 | 闭源 | 69.90 | 57.51 | 64.55 | 70.20 | 57.80 |
| Claude Opus 4.8 | 闭源 | 54.93 | 59.18 | 64.10 | 66.62 | 56.59 |
| Qwen-AgentWorld-35B-A3B | ✓ Apache 2.0 | 64.79 | 53.96 | 65.63 | 65.92 | 56.39 |
| Claude Sonnet 4.6 | 闭源 | 70.00 | 56.98 | 64.52 | 63.17 | 56.04 |
| Gemini 3.1 Pro | 闭源 | 59.07 | 52.47 | 59.07 | 66.92 | 54.57 |
| Kimi K2.6 | 开源 | 65.23 | 52.54 | 58.77 | 60.80 | 53.42 |
| DeepSeek-V4-Pro | 开源 | 63.27 | 51.26 | 59.44 | 63.70 | 52.97 |
| GLM-5.1 | 开源 | 67.60 | 47.32 | 52.07 | 59.13 | 51.31 |
| Qwen3.5-35B-A3B(同尺寸基座) | 开源 | 57.87 | 46.13 | 47.58 | 56.27 | 47.73 |
几个被官方话术压缩掉的事实:
- 「超 Opus 4.8 与 GPT-5.4」成立的是 397B 旗舰(58.71 > GPT-5.4 的 58.25 > Opus 4.6 的 57.80 > Opus 4.8 的 56.59)。开源的 35B(56.39)低于 GPT-5.4 和 Opus 4.6,与 Opus 4.8 几乎打平(略低 0.2),只小幅领先 Sonnet 4.6。
- 同尺寸基座的提升才是干货:同样是 35B/3B 激活,基座 Qwen3.5-35B-A3B 只有 47.73,经过三段式世界模型训练后到 56.39,净增 +8.66 分——这是「环境建模当训练目标」最直接的证据,而不是和别家的横向对比。
- 一个反直觉细节:在这张榜上 Claude Opus 4.8(56.59)反而低于更早的 Opus 4.6(57.80)。这更像是 AgentWorldBench 这套「模拟环境」打分对某些模型行为敏感,而非 Opus 退步——也提醒大家:这是一个新基准,别当成通用能力排名。
世界模型「预热」对外部 agent 基准的零样本迁移(更值得看)
比榜单更扎实的,是下面这张表:用「单轮、非 agent」的世界模型 RL 预热,迁移到「多轮、工具调用」的真实 agent 任务上,不做任何 agent 专项训练,在 7 个外部、成熟基准上(含 3 个完全跨域)的增益。这些基准不是 Qwen 自己造的,可信度更高,且与 X 公告口径相互印证。
| 基准 | SFT 基线 | + 世界模型 RL | 增益 |
|---|---|---|---|
| Terminal-Bench 2.0 | 33.25 | 39.55 | +6.30 |
| SWE-Bench Verified | 64.47 | 67.86 | +3.39 |
| SWE-Bench Pro | 42.18 | 47.42 | +5.24 |
| WideSearch(F1 Item) | 33.38 | 46.17 | +12.79 |
| Claw-Eval | 53.60 | 64.88 | +11.28 |
| QwenClawBench | 39.76 | 49.43 | +9.67 |
| BFCL v4 | 62.29 | 71.25 | +8.96 |
方法与口径细节(展开)
- 模型规格:Qwen-AgentWorld-35B-A3B,总参 35B、激活约 3B,MoE;上下文 262,144(256K);License Apache 2.0。论文同时提出 397B-A17B(总参 397B、激活约 17B),为「旗舰性能档」,但其权重的公开下载状态在发稿时不明确(其 HuggingFace 页面返回 401)。官方公告与第三方解读均把 35B 称为「开源版本」、397B 称为「头条性能版本」。
- 训练数据:超 1000 万条 7 类领域的真实环境交互轨迹。
- 三段式流水线:CPT(从状态转移动态 + 增强的专业语料注入世界建模能力)→ SFT(激活「下一状态预测」推理)→ RL(混合「评分量规 + 规则」奖励,GSPO)。
- AgentWorldBench 口径:对预测出的环境观测,按 Format / Factuality / Consistency / Realism / Quality 五维打分(0–100);数据来自 5 个前沿模型在 9 个成熟基准上的真实交互。它度量「模拟环境的能力」,不等于「完成任务的能力」。
- 数字交叉核验:AgentWorldBench 总榜取自 HuggingFace 官方模型卡原始 README;迁移增益表取自 GitHub 仓库,并与 Qwen 官方 X 公告(Terminal-Bench +6.3、SWE-Bench +3.4、WideSearch +12.8、Claw-Eval +11.3、QwenClawBench +9.7、BFCL v4 +9.0)逐项吻合。
为何重要
把这件事放进 2026 年的行业脉络,它的意义不在「又一个开源模型刷了个榜」,而在给「agent 训练」提出了一条不同的省钱路线。
第一,这是「模型自带训练场」的思路。过去一年 agent 能力的进步,很大程度靠在真实/沙箱环境里做大规模 RL——跑真终端、真浏览器、真代码仓库,采集轨迹再训练。这条路又贵又慢,环境搭建和奖励工程是主要瓶颈。Qwen 的赌注是:与其搭真环境,不如训一个「语言世界模型」去模拟环境反馈,把 RL 的环境成本从「执行」降到「推理」。这其实是经典「基于模型的强化学习」(model-based RL,如游戏里的 World Models、Dreamer)在 LLM agent 领域的对应物——只不过 Qwen 把环境状态、动作、反馈全部用自然语言统一建模,做成一个语言模型的原生目标。
第二,真正的护城河指标不是 AgentWorldBench,而是迁移增益。AgentWorldBench 是 Qwen 自己造的、刚发布的新基准,而且它衡量的是「模拟环境像不像」——Opus、GPT 这些模型本来就不是为「扮演环境」优化的,拿它们在这套榜上的分数去比,有点「在自己主场比自己擅长的项目」。相比之下,Terminal-Bench、SWE-Bench、WideSearch、BFCL 这些都是业界公认的外部基准,世界模型预热在它们上面拿到 +3 到 +13 的零样本迁移增益,且不需要 agent 专项数据——如果这个结果稳得住,那才是「环境建模能当通用基座能力」的硬证据。
第三,开源生态的接力。同一时期,Gemma 4 两个半月下载破 2 亿、DeepSeek/GLM/Kimi/MiniMax 同台竞速,中国开源权重阵营在 agent 方向继续高频出牌。Qwen 这次额外给了「基准 + 方法配方」(CPT→SFT→RL 的世界建模流水线),对研究者价值不止于权重本身。当然,这也叠加着另一层背景:有从业者(如 Ethan Mollick)直言,美国监管完全有能力让本国公司「不使用、不托管」开放权重模型——技术领先和地缘可用性,是两条不一定同向的曲线。
先说结论:Qwen-AgentWorld 的研究价值被它自己的营销标题拖累了。「超 Opus 4.8 与 GPT-5.4」这句话技术上没说错,但它指的是那个未明确开源的 397B 旗舰,而媒体和读者的注意力会自动挂到「开源的 35B」上——而开源 35B 在这张榜上其实低于 GPT-5.4、低于 Opus 4.6、和 Opus 4.8 打平偏下。这种「用旗舰的分数给开源版本贴金」的话术,在 2026 年的发布会里已经太常见,值得读者每次都拆开看。
但抛开标题,这篇工作里有一个真正有意思的东西:同尺寸基座 47.73 → 56.39 的 +8.66,以及在 7 个外部基准上 +3 到 +13 的零样本迁移。如果「把环境建模当预训练目标」真能像「指令跟随」「推理」那样,成为一种可迁移的基座能力,那么 agent RL 的成本结构会被改写——谁有最好的世界模型,谁就能用最低的成本造训练数据。这是比「刷榜」重要得多的一条线,也是这篇论文应该被记住的地方。
不过有三个必须泼的冷水。其一,AgentWorldBench 是「既当运动员又当裁判」:同一个团队发布的新基准,衡量的还是「模拟环境」这件 Qwen 专门训过、别家没训过的事,横向对比的公允性天然存疑;新基准公开后通常很快被过拟合。其二,模拟环境会「过期」:真实系统在变,世界模型学到的是某个时间点的环境快照,模拟保真度会随真实环境演化而衰减——你没法靠模拟覆盖真实世界里那条长尾的失败模式。其三,也是最关键的,安全无法被模拟掉:你可以模拟终端返回什么,但你模拟不了一个 agent 真的执行 rm -rf 之后的后果。模拟训练能让 agent 学会「怎么做」,却学不会「真实世界里这一步会不会闯祸」——真实的权限边界、沙箱隔离、人类确认,一个都省不掉。
所以我的判断是:把 Qwen-AgentWorld 当成一篇「方法论论文 + 一个能本地跑的 3B 激活模型 + 一套配方」来读,价值很高;把它当成「开源模型超越了 Opus 4.8」来读,会被误导。 对从业者,真正该抄的作业是那套「世界模型预热→零样本迁移」的训练范式,而不是榜单上的小数点。
接下来看什么
- 397B 旗舰到底开不开:官方公告只明说开源了 35B,397B 的权重下载状态发稿时不明(HF 页面 401)。它是否、何时以何种许可放出,决定了「超 Opus 4.8」这句话对开源社区有没有实际意义。
- 迁移增益能否被第三方复现:Terminal-Bench、SWE-Bench、BFCL 都是公开基准,社区很快能验证「世界模型预热」的 +3~+13 是否站得住——这比 AgentWorldBench 的自评分更关键。
- AgentWorldBench 的过拟合速度:新基准公开后多久会被针对性刷分、其他厂商是否跟进提交,能看出它会不会沦为又一个被刷爆的内部榜。
- 「Sim RL」省钱的真实幅度:Qwen 称以世界模型为环境的 RL 优于真实环境训练,但缺少成本/样本效率的硬数字。后续若有「用模拟环境训练 vs 真实环境训练」的成本对比与失败率分析,才能判断这条路线的工程性价比。
- 模拟保真度的衰减曲线:真实工具/API/系统更新后,世界模型的模拟准确率掉得有多快、需要多频繁地用新轨迹再训——这决定了它是一次性的实验,还是可持续的基础设施。