智谱开源 GLM-5.2(Max):753B/1M 上下文/MIT 协议,Code Arena 前端超越全部 Opus、仅次 Fable 5

6 月 27 日,智谱 AI(Z.ai / zai-org)开源的 GLM-5.2(Max) 把开源模型在真实编码对决中的天花板又顶高了一格。据 HuggingFace 模型卡,这款模型约 753B(7530 亿)参数、100 万 token 上下文、采用 MIT 协议(无地区限制)。在 Code Arena 前端赛道上,GLM-5.2(Max)拿到 1595 分,排第 2,仅次 Anthropic 前沿模型 Claude Fable 5(1665 分),并超越 Claude Opus 4.8;在头对头对决中击败全部 Claude Opus 变体(含 Opus 4.8 / 4.7 Thinking),对 Kimi-K2.6 胜率 61.0%、对 Sonnet 4.6 达 59.4%。这是开源权重模型第一次在真实前端工程对决里,把 Anthropic 全部 Opus 档位压在身下、并贴住其最前沿的 Fable 5。

发生了什么

GLM-5.2 是智谱 GLM5 家族的最新一代,以 MIT 协议完全开放权重——这是开源阵营里最宽松的一档,无商用门槛、无地区限制。模型卡标注规模为 753B 参数(BF16/F32),并强调”solid 1M-token context”,即在百万 token 长上下文下稳定支撑长程任务。arXiv 技术报告显示早至 2 月 17 日已发布,本轮是模型卡更新与社区/榜单发酵后的集中关注。(注:部分发布通稿引用 7440 亿(744B) 参数口径,与模型卡的 753B 存在约 1.2% 偏差,本篇以模型卡为准。)

真正让 GLM-5.2 出圈的是 Code Arena——一个让模型在真实前端开发任务里头对头对决的榜单。Code Arena 官方账号连续发布的三条分析勾勒出全貌:

排名与分数:GLM 系列从 GLM-4.6(1408 分) 一路攀升至 GLM-5.2(Max)(1595 分),超越 Opus 4.8,逼近前沿模型 Claude Fable 5(1665 分),被定位为”该实验室迄今最强编码模型”。
头对头胜率:GLM-5.2(Max)对几乎所有对手胜率更高,击败全部 Claude Opus 变体(含 Opus 4.8 / 4.7 Thinking);对强模型优势最大——对 Kimi-K2.6 达 61.0%、对 Sonnet 4.6 达 59.4%、对 Opus 4.7 Thinking 达 55.0%;最接近的挑战来自 GPT-5.5(xHigh)(41.7% 对 40.0%)。与自身前代 GLM-5.1 战平(45.5%-45.5%),跃升主要体现在对阵其他模型上。
Token 效率:在 Agent Arena 的真实工具任务(搜索/文件系统/终端)分析中,Fable 质量最高(+14.1%),优于同等 token 用量的 Opus 4.8 Thinking(+9.2%);三个 GPT-5.5 变体均在效率前沿之上(+6.2% 至 +8.6%)且用量更少;GLM-5.2 达 +5.1% 接近趋势线——即”花的 token 大致换来对等的收益”,不像 Gemini-3.5 Flash 或 Grok Build 0.1 那样烧 token 却净负增长。

一个需要点破的细节:不少传播标题写作”距 Claude Opus 4.8 不到 1%“,但这与 Code Arena 前端赛道的实际得分矛盾——该赛道上 GLM-5.2(1595)是超越 Opus 4.8 的,而非落后。“不到 1%“这一说法更可能指某条整体榜单(而非前端赛道)上的总分组距,本篇未能从官方榜单页独立核实,故不采用该口径;经核实的差距是:GLM-5.2 在前端赛道落后 Fable 5 约 4.2%((1665−1595)/1665),并领先 Opus 4.8。

关键数据 / 技术细节

Code Arena 前端赛道——GLM 系列攀升与排位(据 Code Arena 官方分析):

模型	前端得分	排位关系	来源
Claude Fable 5	1665	第 1(Anthropic 前沿)	Code Arena
GLM-5.2(Max)	1595	第 2,开源第一	Code Arena
Claude Opus 4.8	<1595(被超越)	被 GLM 击败	Code Arena
GLM-4.6(前代参照)	1408	系列起点	Code Arena

头对头胜率——GLM-5.2(Max) 对主要对手(据 Code Arena 前端赛道分析,单一来源):

对手模型	GLM-5.2(Max) 胜率
Kimi-K2.6	61.0%
Sonnet 4.6	59.4%
Opus 4.7 Thinking	55.0%
GPT-5.5(xHigh)	41.7%(对手 40.0%,最接近的挑战)
GLM-5.1(自家中代)	45.5%(战平)

GLM-5.2 自报跑分(据 HuggingFace 模型卡,为智谱自测、非第三方独立复现;仅 GLM-5.1 列为对照):

基准	GLM-5.2	GLM-5.1(对照)
AIME 2026(数学)	99.2	95.3
HMMT Nov. 2025	94.4	—
GPQA-Diamond	91.2	—
HLE(w/ Tools)	54.7	—
SWE-bench Pro(软件工程)	62.1	58.4
Terminal Bench 2.1(Best Harness)	82.7	—
FrontierSWE(Dominance)	74.4	—
MCP-Atlas(Public,智能体)	76.8	—
Tool-Decathlon	48.2	—

Token 效率(Agent Arena,真实工具任务,据 Code Arena):

模型	相对前沿的效率增益
Claude Fable 5	+14.1%
Claude Opus 4.8 Thinking	+9.2%
GPT-5.5 系列(三档)	+6.2% ~ +8.6%
GLM-5.2	+5.1%(接近趋势线)

训练硬件——一个必须区分的点:All In 节目嘉宾 David Sacks 在节目摘要中称,GLM5 家族已用华为昇腾(Ascend)完成训练,并估计中国模型技术整体落后约 9 个月、芯片落后约 24 个月。但需注意:HuggingFace 模型卡只在推理/部署侧提及昇腾(支持 vLLM-Ascend、xLLM、SGLang),未声明训练硬件。“昇腾训练”目前为单一来源(节目转述),智谱官方未在可查材料中确认,本篇标注为待核实。

定价:智谱在发布中宣称其 API 较”同等性能美国模型”便宜约 85%;据编辑材料,软件工程基准据称击败 GPT-5.5。这两项均属厂商发布口径,本篇未能从官方定价页/对比表独立核验,标注为智谱宣称、待核实。Z.ai 官网确认 GLM-5.2 为其聊天/智能体产品的驱动模型。

展开:开源与闭源差距的宏观背景(Doubleword 分析)

Doubleword 创始人 Jamie Dborin 6 月 22 日的分析用 Artificial Analysis 的 18 个基准,测量”开源模型落后闭源前沿多久”。核心结论:

单基准(Intelligence Index):开源差距自 2024 年夏起持续缩小,按最佳拟合线外推,2026 年 12 月 3 日追平(写文时约 6 个月后)。
18 基准平均:差距”几乎完全持平,长期维持在略低于 5 个月”,与单基准的”圣诞前追平”结论相悖——多数基准的差距反而在缓慢扩大。
编码基准是异类:编码指数”从落后 15 个月 缩到仅落后 1-2 个月”。GLM-5.2 在 Code Arena 前端贴住 Fable 5、压过全部 Opus,正是这条”编码差距率先收窄”曲线的最新样本。

18 个基准包括:aime、aime 25、AA agentic/coding/intelligence/math index、gpqa、hle、ifbench、lcr、livecodebench、math 500、mmlu pro、scicode、tau2、tau banking、terminalbench hard/v2。该分析为聚合层面,未点名 GLM-5.2。

为何重要

第一,这是开源权重模型第一次在”真实工程对决”而非合成基准上,系统性压过 Opus 档位。过去开源模型追赶闭源,靠的多是 MMLU、AIME 这类纸面跑分,容易被质疑”刷榜不代表能用”。Code Arena 让模型在真实前端任务里正面打,胜率是搏出来的。GLM-5.2(Max)对 Opus 4.7 Thinking 的 55.0%、对 Sonnet 4.6 的 59.4%,意味着在开发者最关心的”能不能把活干出来”这条线上,开源已经不再是”够用的平替”,而是”同台竞争的赢家”。这条线的意义远大于某个基准多两分。

第二,MIT 协议 + 完全开放权重,把开源的”可部署性”推到新档。GLM-5.2 不是”开放给研究、商用要谈”的半开放,而是无地区限制、无技术门槛的纯 MIT。对自建基础设施的企业、对受出口管制无法用美国闭源 API 的市场、对要 fine-tune 进自有产品的团队,这意味着一个 753B、1M 上下文的前沿编码模型可以真正搬回家。当闭源旗舰(同周 OpenAI 的 GPT-5.6、Anthropic 的 Fable 5)开始进入”政府准入”管控时,一个不受管控、可自托管的前沿替代品的战略价值被放大了。

第三,编码差距率先收窄,是开源追赶路径的一个结构性信号。Doubleword 的 18 基准分析显示,整体差距仍稳定在约 5 个月、多数基准甚至在扩大,唯独编码从落后 15 个月缩到 1-2 个月。原因不难理解:代码是反馈最密集、最可验证的领域——能跑通就是能跑通,强化学习的信号最干净,开源社区又能拿到海量真实代码做训练。GLM-5.2 在 Code Arena 的表现,正是”编码这条腿先追上”的最新证据;但也要清醒:在数学之外的多数通用基准上,开源整体仍落后,不该把编码赛道的胜利外推成”全面追平”。

第四,“昇腾训练”若属实,是算力自主的里程碑;但目前证据薄弱。若 GLM5 家族确系在华为昇腾上完成训练,意味着一个登顶开源编码榜的前沿模型,绕开了英伟达生态——这对中国 AI 的”卡脖子”叙事是实质突破,也是 Sacks “芯片落后 24 个月但仍能训出前沿模型”判断的注脚。但必须强调:模型卡只确认昇腾推理,训练侧证据目前仅有节目转述一条,在智谱官方或论文确认前,宜按”传闻级”对待。

接下来看什么

第三方独立复现:GLM-5.2 的 SWE-bench Pro 62.1、AIME 2026 99.2 等均为智谱自报,需等 SWE-bench / Terminal-Bench 官方榜单与社区独立复现来交叉印证;Code Arena 前端的 1595 分与头对头胜率是榜单实测,可信度更高。
“距 Opus 4.8 不到 1%“口径的来源:盯 Code Arena 是否有”整体榜单”页发布——若存在,核对该 1% 是否指整体 Elo 而非前端赛道,以澄清当前传播标题的矛盾。
昇腾训练的官方确认:等智谱技术报告/论文或官方博客明确训练硬件。一旦坐实”昇腾训出 753B 前沿编码模型”,其产业与地缘意义远超跑分本身。
定价”便宜 85%“的可核验性:等 Z.ai 定价页公开每百万 token 价格,与同档闭源(GPT-5.6 Sol 的 $5/$30、Opus 系列)做逐项对比,验证 85% 这一口径。
编码差距能否继续收窄至追平:Doubleword 预测编码差距已缩到 1-2 个月。看下一版 GLM(或 DeepSeek、Kimi 的开源编码迭代)能否在 Code Arena 把 Fable 5 也拉下马——那将是开源在真实工程对决里首次登顶第 1。

日报观点

我们的判断:GLM-5.2 的真正分量,不在于”又一个 753B 开源大模型”,而在于它把开源与闭源的差距,从”纸面跑分接近”推进到了”真实工程对决中赢下 Opus 整条产品线”。在 Code Arena 前端赛道上对 Opus 4.7 Thinking 的 55.0%、对 Sonnet 4.6 的 59.4%,是搏出来的胜率,不是刷出来的分数——这对开发者决策的权重,远高于 MMLU 多两分。当一个 MIT 协议、可自托管的模型能在前端工程上压过 Anthropic 全部 Opus 档位、并贴住其最前沿的 Fable 5,开源阵营第一次有了”不只是平替、而是首选”的真实论据。

但有两点必须把话摁住,避免被传播情绪带偏。其一,“距 Opus 4.8 不到 1%“是个需要纠正的口径。经核实的 Code Arena 前端数据是:GLM-5.2(1595)超越 Opus 4.8、落后 Fable 5 约 4.2%。把”超越”说成”落后 1%“,既低估了 GLM 的实际排位,也制造了与榜单矛盾的混乱叙事。精确性是这类报道的底线——GLM 的成就是”开源第一、整体第二、压过全部 Opus”,这已经足够有力,不需要用一条对不上的数字去拔高。其二,智谱自报的 SWE-bench Pro 62.1、AIME 99.2 目前是孤证,模型卡未给 GPT-5.5 / Claude 的同口径对照,“软件工程击败 GPT-5.5”是厂商发布口径而非独立验证。Code Arena 的实测排名可信,自报跑分别急着当结论。

再给一个反面 caveat:别把编码赛道的胜利误读成”开源全面追平闭源”。Doubleword 的 18 基准分析说得很清楚——整体差距仍稳定在约 5 个月,多数基准甚至在扩大,唯有编码从 15 个月缩到 1-2 个月。编码能先追上,是因为代码反馈最干净、开源社区数据最充分;但在通用推理、长程 agentic 规划等信号更嘈杂的领域,闭源仍占优。GLM-5.2 的 Token 效率(+5.1%)也仅”接近趋势线”,落后 Fable 5 的 +14.1% 一截——在 agent 实际跑长任务时,效率差距会直接转化为成本与延迟差距。所以更准确的读法是:开源在”编码”这条腿上已基本追平,但还远谈不上整体并跑。

最后,“昇腾训练”这一点值得单独拎出来警惕误传。这是一个极具传播力、也极具地缘叙事价值的说法,但截至本篇发稿,可查的官方材料(HuggingFace 模型卡)只在推理侧提到昇腾,训练侧证据仅 All In 节目转述一条。在智谱官方或论文确认前,它应被当作”传闻级”信息对待。真伪之间差别巨大:若属实,是中国算力自主的硬里程碑;若不实或部分不实(如仅部分阶段用昇腾),则意义要打折。对这类”单源、高情绪、高叙事价值”的说法,标注待核实比急着下结论更重要——这恰恰是日报区别于社交传播的地方。

一句话收口:GLM-5.2 是开源编码模型的一次实质突破,它让”开源能在真实工程里赢 Opus”从口号变成榜单事实;但它的成就要用精确的数字讲、用待核实的标签标,既不替它吹”全面追平”,也不替它背书未经确认的硬件叙事。开源的进步值得被认真看见,而认真看见的方式,就是把每个数字都摁在可核查的桌面上。