6 月 27 日,智谱 AI(Z.ai / zai-org)开源的 GLM-5.2(Max) 把开源模型在真实编码对决中的天花板又顶高了一格。据 HuggingFace 模型卡,这款模型约 753B(7530 亿)参数、100 万 token 上下文、采用 MIT 协议(无地区限制)。在 Code Arena 前端赛道上,GLM-5.2(Max)拿到 1595 分,排第 2,仅次 Anthropic 前沿模型 Claude Fable 5(1665 分),并超越 Claude Opus 4.8;在头对头对决中击败全部 Claude Opus 变体(含 Opus 4.8 / 4.7 Thinking),对 Kimi-K2.6 胜率 61.0%、对 Sonnet 4.6 达 59.4%。这是开源权重模型第一次在真实前端工程对决里,把 Anthropic 全部 Opus 档位压在身下、并贴住其最前沿的 Fable 5。
发生了什么
GLM-5.2 是智谱 GLM5 家族的最新一代,以 MIT 协议完全开放权重——这是开源阵营里最宽松的一档,无商用门槛、无地区限制。模型卡标注规模为 753B 参数(BF16/F32),并强调”solid 1M-token context”,即在百万 token 长上下文下稳定支撑长程任务。arXiv 技术报告显示早至 2 月 17 日已发布,本轮是模型卡更新与社区/榜单发酵后的集中关注。(注:部分发布通稿引用 7440 亿(744B) 参数口径,与模型卡的 753B 存在约 1.2% 偏差,本篇以模型卡为准。)
真正让 GLM-5.2 出圈的是 Code Arena——一个让模型在真实前端开发任务里头对头对决的榜单。Code Arena 官方账号连续发布的三条分析勾勒出全貌:
- 排名与分数:GLM 系列从 GLM-4.6(1408 分) 一路攀升至 GLM-5.2(Max)(1595 分),超越 Opus 4.8,逼近前沿模型 Claude Fable 5(1665 分),被定位为”该实验室迄今最强编码模型”。
- 头对头胜率:GLM-5.2(Max)对几乎所有对手胜率更高,击败全部 Claude Opus 变体(含 Opus 4.8 / 4.7 Thinking);对强模型优势最大——对 Kimi-K2.6 达 61.0%、对 Sonnet 4.6 达 59.4%、对 Opus 4.7 Thinking 达 55.0%;最接近的挑战来自 GPT-5.5(xHigh)(41.7% 对 40.0%)。与自身前代 GLM-5.1 战平(45.5%-45.5%),跃升主要体现在对阵其他模型上。
- Token 效率:在 Agent Arena 的真实工具任务(搜索/文件系统/终端)分析中,Fable 质量最高(+14.1%),优于同等 token 用量的 Opus 4.8 Thinking(+9.2%);三个 GPT-5.5 变体均在效率前沿之上(+6.2% 至 +8.6%)且用量更少;GLM-5.2 达 +5.1% 接近趋势线——即”花的 token 大致换来对等的收益”,不像 Gemini-3.5 Flash 或 Grok Build 0.1 那样烧 token 却净负增长。
一个需要点破的细节:不少传播标题写作”距 Claude Opus 4.8 不到 1%“,但这与 Code Arena 前端赛道的实际得分矛盾——该赛道上 GLM-5.2(1595)是超越 Opus 4.8 的,而非落后。“不到 1%“这一说法更可能指某条整体榜单(而非前端赛道)上的总分组距,本篇未能从官方榜单页独立核实,故不采用该口径;经核实的差距是:GLM-5.2 在前端赛道落后 Fable 5 约 4.2%((1665−1595)/1665),并领先 Opus 4.8。
关键数据 / 技术细节
Code Arena 前端赛道——GLM 系列攀升与排位(据 Code Arena 官方分析):
| 模型 | 前端得分 | 排位关系 | 来源 |
|---|---|---|---|
| Claude Fable 5 | 1665 | 第 1(Anthropic 前沿) | Code Arena |
| GLM-5.2(Max) | 1595 | 第 2,开源第一 | Code Arena |
| Claude Opus 4.8 | <1595(被超越) | 被 GLM 击败 | Code Arena |
| GLM-4.6(前代参照) | 1408 | 系列起点 | Code Arena |
头对头胜率——GLM-5.2(Max) 对主要对手(据 Code Arena 前端赛道分析,单一来源):
| 对手模型 | GLM-5.2(Max) 胜率 |
|---|---|
| Kimi-K2.6 | 61.0% |
| Sonnet 4.6 | 59.4% |
| Opus 4.7 Thinking | 55.0% |
| GPT-5.5(xHigh) | 41.7%(对手 40.0%,最接近的挑战) |
| GLM-5.1(自家中代) | 45.5%(战平) |
GLM-5.2 自报跑分(据 HuggingFace 模型卡,为智谱自测、非第三方独立复现;仅 GLM-5.1 列为对照):
| 基准 | GLM-5.2 | GLM-5.1(对照) |
|---|---|---|
| AIME 2026(数学) | 99.2 | 95.3 |
| HMMT Nov. 2025 | 94.4 | — |
| GPQA-Diamond | 91.2 | — |
| HLE(w/ Tools) | 54.7 | — |
| SWE-bench Pro(软件工程) | 62.1 | 58.4 |
| Terminal Bench 2.1(Best Harness) | 82.7 | — |
| FrontierSWE(Dominance) | 74.4 | — |
| MCP-Atlas(Public,智能体) | 76.8 | — |
| Tool-Decathlon | 48.2 | — |
Token 效率(Agent Arena,真实工具任务,据 Code Arena):
| 模型 | 相对前沿的效率增益 |
|---|---|
| Claude Fable 5 | +14.1% |
| Claude Opus 4.8 Thinking | +9.2% |
| GPT-5.5 系列(三档) | +6.2% ~ +8.6% |
| GLM-5.2 | +5.1%(接近趋势线) |
训练硬件——一个必须区分的点:All In 节目嘉宾 David Sacks 在节目摘要中称,GLM5 家族已用华为昇腾(Ascend)完成训练,并估计中国模型技术整体落后约 9 个月、芯片落后约 24 个月。但需注意:HuggingFace 模型卡只在推理/部署侧提及昇腾(支持 vLLM-Ascend、xLLM、SGLang),未声明训练硬件。“昇腾训练”目前为单一来源(节目转述),智谱官方未在可查材料中确认,本篇标注为待核实。
定价:智谱在发布中宣称其 API 较”同等性能美国模型”便宜约 85%;据编辑材料,软件工程基准据称击败 GPT-5.5。这两项均属厂商发布口径,本篇未能从官方定价页/对比表独立核验,标注为智谱宣称、待核实。Z.ai 官网确认 GLM-5.2 为其聊天/智能体产品的驱动模型。
展开:开源与闭源差距的宏观背景(Doubleword 分析)
Doubleword 创始人 Jamie Dborin 6 月 22 日的分析用 Artificial Analysis 的 18 个基准,测量”开源模型落后闭源前沿多久”。核心结论:
- 单基准(Intelligence Index):开源差距自 2024 年夏起持续缩小,按最佳拟合线外推,2026 年 12 月 3 日追平(写文时约 6 个月后)。
- 18 基准平均:差距”几乎完全持平,长期维持在略低于 5 个月”,与单基准的”圣诞前追平”结论相悖——多数基准的差距反而在缓慢扩大。
- 编码基准是异类:编码指数”从落后 15 个月 缩到仅落后 1-2 个月”。GLM-5.2 在 Code Arena 前端贴住 Fable 5、压过全部 Opus,正是这条”编码差距率先收窄”曲线的最新样本。
18 个基准包括:aime、aime 25、AA agentic/coding/intelligence/math index、gpqa、hle、ifbench、lcr、livecodebench、math 500、mmlu pro、scicode、tau2、tau banking、terminalbench hard/v2。该分析为聚合层面,未点名 GLM-5.2。
为何重要
第一,这是开源权重模型第一次在”真实工程对决”而非合成基准上,系统性压过 Opus 档位。过去开源模型追赶闭源,靠的多是 MMLU、AIME 这类纸面跑分,容易被质疑”刷榜不代表能用”。Code Arena 让模型在真实前端任务里正面打,胜率是搏出来的。GLM-5.2(Max)对 Opus 4.7 Thinking 的 55.0%、对 Sonnet 4.6 的 59.4%,意味着在开发者最关心的”能不能把活干出来”这条线上,开源已经不再是”够用的平替”,而是”同台竞争的赢家”。这条线的意义远大于某个基准多两分。
第二,MIT 协议 + 完全开放权重,把开源的”可部署性”推到新档。GLM-5.2 不是”开放给研究、商用要谈”的半开放,而是无地区限制、无技术门槛的纯 MIT。对自建基础设施的企业、对受出口管制无法用美国闭源 API 的市场、对要 fine-tune 进自有产品的团队,这意味着一个 753B、1M 上下文的前沿编码模型可以真正搬回家。当闭源旗舰(同周 OpenAI 的 GPT-5.6、Anthropic 的 Fable 5)开始进入”政府准入”管控时,一个不受管控、可自托管的前沿替代品的战略价值被放大了。
第三,编码差距率先收窄,是开源追赶路径的一个结构性信号。Doubleword 的 18 基准分析显示,整体差距仍稳定在约 5 个月、多数基准甚至在扩大,唯独编码从落后 15 个月缩到 1-2 个月。原因不难理解:代码是反馈最密集、最可验证的领域——能跑通就是能跑通,强化学习的信号最干净,开源社区又能拿到海量真实代码做训练。GLM-5.2 在 Code Arena 的表现,正是”编码这条腿先追上”的最新证据;但也要清醒:在数学之外的多数通用基准上,开源整体仍落后,不该把编码赛道的胜利外推成”全面追平”。
第四,“昇腾训练”若属实,是算力自主的里程碑;但目前证据薄弱。若 GLM5 家族确系在华为昇腾上完成训练,意味着一个登顶开源编码榜的前沿模型,绕开了英伟达生态——这对中国 AI 的”卡脖子”叙事是实质突破,也是 Sacks “芯片落后 24 个月但仍能训出前沿模型”判断的注脚。但必须强调:模型卡只确认昇腾推理,训练侧证据目前仅有节目转述一条,在智谱官方或论文确认前,宜按”传闻级”对待。
接下来看什么
- 第三方独立复现:GLM-5.2 的 SWE-bench Pro 62.1、AIME 2026 99.2 等均为智谱自报,需等 SWE-bench / Terminal-Bench 官方榜单与社区独立复现来交叉印证;Code Arena 前端的 1595 分与头对头胜率是榜单实测,可信度更高。
- “距 Opus 4.8 不到 1%“口径的来源:盯 Code Arena 是否有”整体榜单”页发布——若存在,核对该 1% 是否指整体 Elo 而非前端赛道,以澄清当前传播标题的矛盾。
- 昇腾训练的官方确认:等智谱技术报告/论文或官方博客明确训练硬件。一旦坐实”昇腾训出 753B 前沿编码模型”,其产业与地缘意义远超跑分本身。
- 定价”便宜 85%“的可核验性:等 Z.ai 定价页公开每百万 token 价格,与同档闭源(GPT-5.6 Sol 的 $5/$30、Opus 系列)做逐项对比,验证 85% 这一口径。
- 编码差距能否继续收窄至追平:Doubleword 预测编码差距已缩到 1-2 个月。看下一版 GLM(或 DeepSeek、Kimi 的开源编码迭代)能否在 Code Arena 把 Fable 5 也拉下马——那将是开源在真实工程对决里首次登顶第 1。
我们的判断:GLM-5.2 的真正分量,不在于”又一个 753B 开源大模型”,而在于它把开源与闭源的差距,从”纸面跑分接近”推进到了”真实工程对决中赢下 Opus 整条产品线”。在 Code Arena 前端赛道上对 Opus 4.7 Thinking 的 55.0%、对 Sonnet 4.6 的 59.4%,是搏出来的胜率,不是刷出来的分数——这对开发者决策的权重,远高于 MMLU 多两分。当一个 MIT 协议、可自托管的模型能在前端工程上压过 Anthropic 全部 Opus 档位、并贴住其最前沿的 Fable 5,开源阵营第一次有了”不只是平替、而是首选”的真实论据。
但有两点必须把话摁住,避免被传播情绪带偏。其一,“距 Opus 4.8 不到 1%“是个需要纠正的口径。经核实的 Code Arena 前端数据是:GLM-5.2(1595)超越 Opus 4.8、落后 Fable 5 约 4.2%。把”超越”说成”落后 1%“,既低估了 GLM 的实际排位,也制造了与榜单矛盾的混乱叙事。精确性是这类报道的底线——GLM 的成就是”开源第一、整体第二、压过全部 Opus”,这已经足够有力,不需要用一条对不上的数字去拔高。其二,智谱自报的 SWE-bench Pro 62.1、AIME 99.2 目前是孤证,模型卡未给 GPT-5.5 / Claude 的同口径对照,“软件工程击败 GPT-5.5”是厂商发布口径而非独立验证。Code Arena 的实测排名可信,自报跑分别急着当结论。
再给一个反面 caveat:别把编码赛道的胜利误读成”开源全面追平闭源”。Doubleword 的 18 基准分析说得很清楚——整体差距仍稳定在约 5 个月,多数基准甚至在扩大,唯有编码从 15 个月缩到 1-2 个月。编码能先追上,是因为代码反馈最干净、开源社区数据最充分;但在通用推理、长程 agentic 规划等信号更嘈杂的领域,闭源仍占优。GLM-5.2 的 Token 效率(+5.1%)也仅”接近趋势线”,落后 Fable 5 的 +14.1% 一截——在 agent 实际跑长任务时,效率差距会直接转化为成本与延迟差距。所以更准确的读法是:开源在”编码”这条腿上已基本追平,但还远谈不上整体并跑。
最后,“昇腾训练”这一点值得单独拎出来警惕误传。这是一个极具传播力、也极具地缘叙事价值的说法,但截至本篇发稿,可查的官方材料(HuggingFace 模型卡)只在推理侧提到昇腾,训练侧证据仅 All In 节目转述一条。在智谱官方或论文确认前,它应被当作”传闻级”信息对待。真伪之间差别巨大:若属实,是中国算力自主的硬里程碑;若不实或部分不实(如仅部分阶段用昇腾),则意义要打折。对这类”单源、高情绪、高叙事价值”的说法,标注待核实比急着下结论更重要——这恰恰是日报区别于社交传播的地方。
一句话收口:GLM-5.2 是开源编码模型的一次实质突破,它让”开源能在真实工程里赢 Opus”从口号变成榜单事实;但它的成就要用精确的数字讲、用待核实的标签标,既不替它吹”全面追平”,也不替它背书未经确认的硬件叙事。开源的进步值得被认真看见,而认真看见的方式,就是把每个数字都摁在可核查的桌面上。