模型发布

智谱 GLM-5.2 开源压成本:753B MoE、MIT 许可,自报 SWE-bench Pro 62.1

MIT 许可的 753B MoE,自报 SWE-bench Pro 62.1,官方称多项基准超 GPT-5.5——开源前沿模型再压成本。

2026年6月22日 · 周一 深度报告 中置信 重要度 4/5

智谱(对外品牌 Z.ai)在这一时间窗口把最新一代旗舰 GLM-5.2 以开源权重的形式放上了 HuggingFace。这不是一次「能力小步快跑」的更新,而是一次围绕成本与可获取性做文章的发布:模型用 MIT 许可——商用、闭源二次分发几乎没有附加限制——总参数 753B、采用 MoE(混合专家)架构、原生 1M token 上下文;官方模型卡自报核心编程基准 SWE-bench Pro 62.1(上一代 GLM-5.1 为 58.4),并在文档中直接宣称在多项基准上「超过 GPT-5.5 与 Opus 4.7」。把一个能对标第一梯队闭源模型的权重,用最宽松的许可证免费放出,这件事本身比某一项基准的零点几分更值得从业者注意。

需要先说清楚信源边界:本文是历史回溯,可独立检索到的一手材料以 HuggingFace 模型卡(GLM-5.2 / GLM-5.1 / GLM-5.2-FP8)和 Z.ai 官方文档为主,外加 GLM-5 系列的技术论文用于交代架构脉络。文中标注「自报 / 官方称」的数字均来自智谱自家的模型卡与文档,尚未见到第三方独立基准复现;API 定价与本地部署所需 GPU 数量在写作时未能从官方页面直接取回正文,相关数字以「官方/社区自报」处理并在下文显式说明。

发生了什么

GLM-5.2 在 HuggingFace 上以 zai-org/GLM-5.2 发布,同时提供 GLM-5.2-FP8 量化版本。模型卡给出的关键事实清晰:

  • 许可证:MIT——这是开源许可里最宽松的一档,允许商用、修改、闭源再分发,只需保留版权声明。对企业而言,这意味着可以把权重直接拉进自有产品而几乎不必担心许可纠纷。
  • 规模:753B 总参数,MoE 架构。模型卡的架构标签为 glm_moe_dsa,与上一代 GLM-5.1(754B)同属一个家族;按 GLM-5 技术论文披露的家族设计,这一代采用 256 个专家、约 40B 激活参数的稀疏结构——即每个 token 只激活总参数的一小部分,用「大容量、低激活」的方式平衡能力与推理成本。
  • 上下文:1M token。模型卡称其为「solid 1M-token context」,并通过名为 IndexShare 的机制(每四个稀疏注意力层复用同一个 indexer)把 1M 上下文下的单 token FLOPs 降低约 2.9 倍;同时改进了用于投机解码的 MTP 层,把接受长度(acceptance length)最高提升约 20%。换言之,这一代的工程重点是「把长上下文跑得起、跑得便宜」。
  • 部署:开箱支持主流推理框架,模型卡列出 SGLang(v0.5.13.post1+)、vLLM(v0.23.0+)、KTransformers、Transformers、Unsloth,并支持昇腾(Ascend)NPU。FP8 版本张量类型为 F8_E4M3,即标准 4 指数 3 尾数的 FP8 格式。

官方文档则给出了竞争定位:GLM-5.2 被描述为「在多项基准上超过 GPT-5.5 与 Opus 4.7」。这句话是理解这次发布的钥匙——智谱要传达的不是「又一个开源模型」,而是「一个开源、可商用、还能掰手腕第一梯队闭源模型」的东西。

关键数据 / 技术细节

把 GLM-5.2 的自报基准和上一代 GLM-5.1 放在一起,能更清楚地看到这一代「在哪些方向上加码」。下表数字均来自两代模型在 HuggingFace 的官方模型卡(智谱自报):

维度GLM-5.1(上代)GLM-5.2(本次)说明
总参数754B753BMoE,同家族
激活参数模型卡未列40B(按家族论文)「大容量低激活」
许可证MITMIT商用友好
上下文模型卡未列1M tokenIndexShare 降本
SWE-bench Pro58.462.1编程主基准,+3.7
Terminal-Bench(Terminus-2)63.5(2.0)81.0(2.1)终端/Agent 任务
Terminal-Bench(最佳 harness)69.0(Claude Code)82.7自报最佳成绩
AIME 202699.2数学推理
GPQA-Diamond91.2研究生级科学
HLE(带工具)54.7人类最后考试

补充几项 GLM-5.2 模型卡给出的细分成绩,用于判断它的能力轮廓:编程方向除 SWE-bench Pro 外,DeepSWE 46.2、NL2Repo 48.9、ProgramBench 63.7、FrontierSWE(Dominance)74.4;推理方向 HLE 裸分 40.5、HMMT Feb. 2026 92.5、IMOAnswerBench 91.0;Agentic 方向 MCP-Atlas(公开集)76.8、Tool-Decathlon 48.2。从分布看,这一代明显押注编程与 Agent(终端、工具调用)——Terminal-Bench 从上代 2.0 的 63.5 跳到 2.1 的 81.0,是所有维度里相对幅度最大的提升之一。

架构脉络上,GLM-5 系列的技术论文交代了底盘:GLM-5 基座为 744B 总参数 / 40B 激活 / 256 专家 / 80 层,用 28.5T token 训练,采用 DSA(DeepSeek Sparse Attention)降低训练与推理开销,上下文从 4K 逐步扩展到 200K,后训练走「推理 → Agentic → 通用」的顺序式强化学习管线。作为对照,上上代 GLM-4.5 是 355B 总 / 32B 激活——也就是说,从 GLM-4.5 到 GLM-5 这一代,总参数翻了一倍多,但激活参数只从 32B 增到 40B。GLM-5.2 正是站在这套「翻倍容量、克制激活」的底盘上做的迭代。

关于价格与本地部署门槛,需要单独说明信源情况:据本次发布的公开摘要,GLM-5.2 的 API 价约为 $1.40/百万输入 token、$4.40/百万输出 token,折合约为 GPT-5.5 的六分之一;本地部署(FP8)据称至少需要 8 张 H100。这两组数字在写作时未能从智谱官方定价页或博客直接取回正文(相关页面返回空内容或 404),因此按「官方/社区自报、待第三方核实」处理。其中 8×H100 这一估算与权重体量的常识吻合:753B 参数在 FP8(约 1 字节/参数)下仅权重就需约 750GB+ 显存,8 张 80GB H100 合计 640GB 是「勉强够权重、长上下文还要再加卡」的量级,因此「至少 8 张」是合理下限而非舒适配置。

为何重要

第一,这是「开源前沿」对「闭源前沿」的又一次贴身追赶,而且打的是成本牌。当一个 MIT 许可、可商用、自报多项基准接近甚至超过 GPT-5.5/Opus 4.7 的 753B 模型免费放出,闭源厂商的定价权就被持续侵蚀。对企业买方来说,过去「要前沿能力只能付高价调闭源 API」的默认选项,正在被「拿开源权重自部署、或用第三方低价 API」打开缺口。Terminal-Bench、SWE-bench 这类 Agent/编程基准的领先尤其关键——这正是当下最舍得付费的场景(AI 编程、自动化运维),开源模型在这里站住脚,对闭源的现金牛冲击最直接。

第二,「大容量、低激活」的 MoE 路线正在成为开源旗舰的共识打法。753B 总参数听起来吓人,但约 40B 的激活量意味着单次推理的算力成本更接近一个中等规模稠密模型。再叠加 IndexShare 把 1M 上下文的单 token FLOPs 压低约 2.9 倍、MTP 投机解码提速,这一代的设计目标非常明确:不是堆出最高的某个分数,而是把「前沿能力 + 长上下文」的单位成本打下来。这与同期其他开源厂商(DeepSeek 等)的稀疏化、降本方向高度一致——开源阵营的竞争焦点已经从「能不能做出来」转向「能不能让人用得起、跑得动」。

第三,MIT 许可是被低估的杀手锏。很多开源模型用的是带使用限制的「准开源」许可(比如限制月活、限制蒸馏、限制特定竞品),企业法务往往要逐条评估。GLM-5.2 用 MIT,等于把这层摩擦直接抹平。对要把模型嵌进商业产品、或要在其上做闭源微调的团队,许可证的宽松程度有时比基准分高低更能左右选型。

早报观点

我们的判断:GLM-5.2 真正的「新」不在某条 benchmark,而在它把「前沿级能力 + 商用友好许可 + 可控的部署/调用成本」三件事打包到了同一个开源权重里。单看 SWE-bench Pro 从 58.4 到 62.1,这是一次常规迭代;但放在「MIT + 753B MoE + 1M 上下文 + 自报超 GPT-5.5」的组合里看,它对闭源厂商定价权的侵蚀是结构性的。值得注意的被忽视点是 Terminal-Bench 的大跳(2.0 的 63.5 → 2.1 的 81.0)——这说明智谱把资源压在了「Agent / 终端 / 工具调用」这个最赚钱的赛道上,而不是均匀铺开。这是一个有商业算计的选择。

但要给三个 caveat。其一,所有亮眼数字目前都是厂商自报。SWE-bench Pro 62.1、Terminal-Bench 81.0、AIME 99.2 这些成绩来自智谱自己的模型卡,在见到独立第三方复现(或公开榜单的盲测结果)之前,应该按「官方声明」而非「既成事实」来对待;不同 harness、不同评测设置下,Agent/编程基准的分数波动可能很大,模型卡自己也列了 Terminus-2 与「最佳 harness」两套数,差出近 2 分,这本身就提示了评测口径的敏感性。其二,「便宜」是有前提的。$1.40/$4.40 的 API 价(若属实)确实极具攻击性,但本地自部署的 8×H100 门槛把「真正的开源自由」挡在了大多数中小团队门外——能享受 MIT 许可红利的,主要还是有 GPU 集群的大厂和云厂商;对其余人,所谓「开源」在实践中仍是「通过某家低价 API 用到」。其三,「超过 GPT-5.5/Opus 4.7」是一句需要拆开看的话。在多项基准上领先,不等于在真实工作负载、长程任务稳定性、工具调用鲁棒性上全面领先;开源旗舰的纸面分数与生产环境体感之间,历来存在差距,GLM-5.2 是否例外,要等开发者大规模实跑后才能下结论。

一句话:这是一次「用许可证和成本做武器」的发布,方向上踩中了 2026 年开源-闭源竞争的要害,但它的分量需要第三方基准和真实使用反馈来兑现,现在给「重要但待核实」最稳妥。

接下来看什么

  • 第三方独立基准复现:SWE-bench Pro 62.1、Terminal-Bench 2.1 的 81.0/82.7 能否在公开盲测榜单或独立评测机构那里复现——这是把「自报」变成「公认」的关键一步。
  • API 实际定价落地:$1.40/$4.40、约 GPT-5.5 六分之一的价格是否在官方定价页正式生效,以及是否有缓存价、阶梯价等细则;这组数字目前仅见于发布摘要,需官方页面确认。
  • 本地部署的真实门槛:8×H100(FP8)是否够跑 1M 上下文,社区在 SGLang/vLLM 上的实测吞吐与显存占用,以及是否有更激进的量化(INT4 等)把门槛进一步压低。
  • 闭源厂商的回应:GPT-5.5/Opus 4.7 阵营会不会在编程/Agent 场景降价或加码,作为对开源贴身追赶的直接反制。
  • MIT 许可的下游效应:有多少商业产品、闭源微调版本会基于 GLM-5.2 权重出现——这是检验「宽松许可是否真能转化为生态优势」的硬指标。