AI 日报
模型发布

智谱开源 GLM-5.2(Max):753B/1M 上下文/MIT 协议,Code Arena 前端超越全部 Opus、仅次 Fable 5

智谱 AI 开源 GLM-5.2(Max),约 753B 参数、100 万 token 上下文、MIT 协议(据 HuggingFace 模型卡)。在 Code Arena 前端赛道以 1595 分排第 2、仅次 Claude Fable 5(1665 分),超越 Claude Opus 4.8 并在头对头中击败全部 Opus 变体(含 4.8/4.7 Thinking)。智谱自报 SWE-bench Pro 62.1、AIME 2026 99.2。All In 节目嘉宾 Sacks 估计中国模型落后约 9 个月、芯片落后约 24 个月,并称 GLM5 家族已用华为昇腾完成训练(此点模型卡仅确认昇腾推理,训练为单一来源待核实)。

2026年6月27日 · 周六 · 深度调研

6 月 27 日,智谱 AI(Z.ai / zai-org)开源的 GLM-5.2(Max) 把开源模型在真实编码对决中的天花板又顶高了一格。据 HuggingFace 模型卡,这款模型约 753B(7530 亿)参数100 万 token 上下文、采用 MIT 协议(无地区限制)。在 Code Arena 前端赛道上,GLM-5.2(Max)拿到 1595 分,排第 2,仅次 Anthropic 前沿模型 Claude Fable 5(1665 分),并超越 Claude Opus 4.8;在头对头对决中击败全部 Claude Opus 变体(含 Opus 4.8 / 4.7 Thinking),对 Kimi-K2.6 胜率 61.0%、对 Sonnet 4.6 达 59.4%。这是开源权重模型第一次在真实前端工程对决里,把 Anthropic 全部 Opus 档位压在身下、并贴住其最前沿的 Fable 5。

发生了什么

GLM-5.2 是智谱 GLM5 家族的最新一代,以 MIT 协议完全开放权重——这是开源阵营里最宽松的一档,无商用门槛、无地区限制。模型卡标注规模为 753B 参数(BF16/F32),并强调”solid 1M-token context”,即在百万 token 长上下文下稳定支撑长程任务。arXiv 技术报告显示早至 2 月 17 日已发布,本轮是模型卡更新与社区/榜单发酵后的集中关注。(注:部分发布通稿引用 7440 亿(744B) 参数口径,与模型卡的 753B 存在约 1.2% 偏差,本篇以模型卡为准。)

真正让 GLM-5.2 出圈的是 Code Arena——一个让模型在真实前端开发任务里头对头对决的榜单。Code Arena 官方账号连续发布的三条分析勾勒出全貌:

一个需要点破的细节:不少传播标题写作”距 Claude Opus 4.8 不到 1%“,但这与 Code Arena 前端赛道的实际得分矛盾——该赛道上 GLM-5.2(1595)是超越 Opus 4.8 的,而非落后。“不到 1%“这一说法更可能指某条整体榜单(而非前端赛道)上的总分组距,本篇未能从官方榜单页独立核实,故不采用该口径;经核实的差距是:GLM-5.2 在前端赛道落后 Fable 5 约 4.2%((1665−1595)/1665),并领先 Opus 4.8

关键数据 / 技术细节

Code Arena 前端赛道——GLM 系列攀升与排位(据 Code Arena 官方分析):

模型前端得分排位关系来源
Claude Fable 51665第 1(Anthropic 前沿)Code Arena
GLM-5.2(Max)1595第 2,开源第一Code Arena
Claude Opus 4.8<1595(被超越)被 GLM 击败Code Arena
GLM-4.6(前代参照)1408系列起点Code Arena

头对头胜率——GLM-5.2(Max) 对主要对手(据 Code Arena 前端赛道分析,单一来源):

对手模型GLM-5.2(Max) 胜率
Kimi-K2.661.0%
Sonnet 4.659.4%
Opus 4.7 Thinking55.0%
GPT-5.5(xHigh)41.7%(对手 40.0%,最接近的挑战)
GLM-5.1(自家中代)45.5%(战平)

GLM-5.2 自报跑分(据 HuggingFace 模型卡,为智谱自测、非第三方独立复现;仅 GLM-5.1 列为对照):

基准GLM-5.2GLM-5.1(对照)
AIME 2026(数学)99.295.3
HMMT Nov. 202594.4
GPQA-Diamond91.2
HLE(w/ Tools)54.7
SWE-bench Pro(软件工程)62.158.4
Terminal Bench 2.1(Best Harness)82.7
FrontierSWE(Dominance)74.4
MCP-Atlas(Public,智能体)76.8
Tool-Decathlon48.2

Token 效率(Agent Arena,真实工具任务,据 Code Arena):

模型相对前沿的效率增益
Claude Fable 5+14.1%
Claude Opus 4.8 Thinking+9.2%
GPT-5.5 系列(三档)+6.2% ~ +8.6%
GLM-5.2+5.1%(接近趋势线)

训练硬件——一个必须区分的点:All In 节目嘉宾 David Sacks 在节目摘要中称,GLM5 家族已用华为昇腾(Ascend)完成训练,并估计中国模型技术整体落后约 9 个月、芯片落后约 24 个月。但需注意:HuggingFace 模型卡只在推理/部署侧提及昇腾(支持 vLLM-Ascend、xLLM、SGLang),未声明训练硬件。“昇腾训练”目前为单一来源(节目转述),智谱官方未在可查材料中确认,本篇标注为待核实。

定价:智谱在发布中宣称其 API 较”同等性能美国模型”便宜约 85%;据编辑材料,软件工程基准据称击败 GPT-5.5。这两项均属厂商发布口径,本篇未能从官方定价页/对比表独立核验,标注为智谱宣称、待核实。Z.ai 官网确认 GLM-5.2 为其聊天/智能体产品的驱动模型。

展开:开源与闭源差距的宏观背景(Doubleword 分析)

Doubleword 创始人 Jamie Dborin 6 月 22 日的分析用 Artificial Analysis 的 18 个基准,测量”开源模型落后闭源前沿多久”。核心结论:

  • 单基准(Intelligence Index):开源差距自 2024 年夏起持续缩小,按最佳拟合线外推,2026 年 12 月 3 日追平(写文时约 6 个月后)。
  • 18 基准平均:差距”几乎完全持平,长期维持在略低于 5 个月”,与单基准的”圣诞前追平”结论相悖——多数基准的差距反而在缓慢扩大。
  • 编码基准是异类:编码指数”从落后 15 个月 缩到仅落后 1-2 个月”。GLM-5.2 在 Code Arena 前端贴住 Fable 5、压过全部 Opus,正是这条”编码差距率先收窄”曲线的最新样本。

18 个基准包括:aime、aime 25、AA agentic/coding/intelligence/math index、gpqa、hle、ifbench、lcr、livecodebench、math 500、mmlu pro、scicode、tau2、tau banking、terminalbench hard/v2。该分析为聚合层面,未点名 GLM-5.2。

为何重要

第一,这是开源权重模型第一次在”真实工程对决”而非合成基准上,系统性压过 Opus 档位。过去开源模型追赶闭源,靠的多是 MMLU、AIME 这类纸面跑分,容易被质疑”刷榜不代表能用”。Code Arena 让模型在真实前端任务里正面打,胜率是搏出来的。GLM-5.2(Max)对 Opus 4.7 Thinking 的 55.0%、对 Sonnet 4.6 的 59.4%,意味着在开发者最关心的”能不能把活干出来”这条线上,开源已经不再是”够用的平替”,而是”同台竞争的赢家”。这条线的意义远大于某个基准多两分。

第二,MIT 协议 + 完全开放权重,把开源的”可部署性”推到新档。GLM-5.2 不是”开放给研究、商用要谈”的半开放,而是无地区限制、无技术门槛的纯 MIT。对自建基础设施的企业、对受出口管制无法用美国闭源 API 的市场、对要 fine-tune 进自有产品的团队,这意味着一个 753B、1M 上下文的前沿编码模型可以真正搬回家。当闭源旗舰(同周 OpenAI 的 GPT-5.6、Anthropic 的 Fable 5)开始进入”政府准入”管控时,一个不受管控、可自托管的前沿替代品的战略价值被放大了。

第三,编码差距率先收窄,是开源追赶路径的一个结构性信号。Doubleword 的 18 基准分析显示,整体差距仍稳定在约 5 个月、多数基准甚至在扩大,唯独编码从落后 15 个月缩到 1-2 个月。原因不难理解:代码是反馈最密集、最可验证的领域——能跑通就是能跑通,强化学习的信号最干净,开源社区又能拿到海量真实代码做训练。GLM-5.2 在 Code Arena 的表现,正是”编码这条腿先追上”的最新证据;但也要清醒:在数学之外的多数通用基准上,开源整体仍落后,不该把编码赛道的胜利外推成”全面追平”。

第四,“昇腾训练”若属实,是算力自主的里程碑;但目前证据薄弱。若 GLM5 家族确系在华为昇腾上完成训练,意味着一个登顶开源编码榜的前沿模型,绕开了英伟达生态——这对中国 AI 的”卡脖子”叙事是实质突破,也是 Sacks “芯片落后 24 个月但仍能训出前沿模型”判断的注脚。但必须强调:模型卡只确认昇腾推理,训练侧证据目前仅有节目转述一条,在智谱官方或论文确认前,宜按”传闻级”对待。

接下来看什么

日报观点

我们的判断:GLM-5.2 的真正分量,不在于”又一个 753B 开源大模型”,而在于它把开源与闭源的差距,从”纸面跑分接近”推进到了”真实工程对决中赢下 Opus 整条产品线”。在 Code Arena 前端赛道上对 Opus 4.7 Thinking 的 55.0%、对 Sonnet 4.6 的 59.4%,是搏出来的胜率,不是刷出来的分数——这对开发者决策的权重,远高于 MMLU 多两分。当一个 MIT 协议、可自托管的模型能在前端工程上压过 Anthropic 全部 Opus 档位、并贴住其最前沿的 Fable 5,开源阵营第一次有了”不只是平替、而是首选”的真实论据。

但有两点必须把话摁住,避免被传播情绪带偏。其一,“距 Opus 4.8 不到 1%“是个需要纠正的口径。经核实的 Code Arena 前端数据是:GLM-5.2(1595)超越 Opus 4.8、落后 Fable 5 约 4.2%。把”超越”说成”落后 1%“,既低估了 GLM 的实际排位,也制造了与榜单矛盾的混乱叙事。精确性是这类报道的底线——GLM 的成就是”开源第一、整体第二、压过全部 Opus”,这已经足够有力,不需要用一条对不上的数字去拔高。其二,智谱自报的 SWE-bench Pro 62.1、AIME 99.2 目前是孤证,模型卡未给 GPT-5.5 / Claude 的同口径对照,“软件工程击败 GPT-5.5”是厂商发布口径而非独立验证。Code Arena 的实测排名可信,自报跑分别急着当结论。

再给一个反面 caveat:别把编码赛道的胜利误读成”开源全面追平闭源”。Doubleword 的 18 基准分析说得很清楚——整体差距仍稳定在约 5 个月,多数基准甚至在扩大,唯有编码从 15 个月缩到 1-2 个月。编码能先追上,是因为代码反馈最干净、开源社区数据最充分;但在通用推理、长程 agentic 规划等信号更嘈杂的领域,闭源仍占优。GLM-5.2 的 Token 效率(+5.1%)也仅”接近趋势线”,落后 Fable 5 的 +14.1% 一截——在 agent 实际跑长任务时,效率差距会直接转化为成本与延迟差距。所以更准确的读法是:开源在”编码”这条腿上已基本追平,但还远谈不上整体并跑

最后,“昇腾训练”这一点值得单独拎出来警惕误传。这是一个极具传播力、也极具地缘叙事价值的说法,但截至本篇发稿,可查的官方材料(HuggingFace 模型卡)只在推理侧提到昇腾,训练侧证据仅 All In 节目转述一条。在智谱官方或论文确认前,它应被当作”传闻级”信息对待。真伪之间差别巨大:若属实,是中国算力自主的硬里程碑;若不实或部分不实(如仅部分阶段用昇腾),则意义要打折。对这类”单源、高情绪、高叙事价值”的说法,标注待核实比急着下结论更重要——这恰恰是日报区别于社交传播的地方。

一句话收口:GLM-5.2 是开源编码模型的一次实质突破,它让”开源能在真实工程里赢 Opus”从口号变成榜单事实;但它的成就要用精确的数字讲、用待核实的标签标,既不替它吹”全面追平”,也不替它背书未经确认的硬件叙事。开源的进步值得被认真看见,而认真看见的方式,就是把每个数字都摁在可核查的桌面上。

一手来源