Z.ai 的 GLM-5.2 正以前所未有的方式占据开源模型的话语权:推理速度被推到 318 token/s,在 ARC-AGI 验证测试上 ARC-AGI-2 拿到 22.8%、ARC-AGI-1 拿到 77.0%,ARC Prize 官方给出的判断是「性能可比 GPT-5.4 与 GPT-5.5 的低推理档」。与此同时它已接入 Devin、Cursor、Cloudflare 等生产侧,而 GLM 团队首次集体到访硅谷、在 AI Engineer World’s Fair 亮相——Z.ai 创始人唐杰本人转发速度数据时只留下一句「318 tps…crazy…」。
发生了什么
速度:280 → 318 token/s。 此前业界已知 GLM-5.2 的推理速度约 280 token/s,资深推理工程师 Dmytro Dzhulgakov 公布了一组新数字——318 token/s,且称「还有上升空间」。唐杰在转发这条时直言「crazy…how can you make this happen」,并表态「we have to work harder even more」。评论区立刻出现两种声音:有人据此理解「怪不得在 Cursor 里这么快」,也有人质疑这是峰值而非平均、长输入下 prefill 会成为瓶颈。
质量:ARC-AGI 验证达标。 ARC Prize 官方账号发布了 GLM-5.2 的 ARC-AGI(Verified)成绩:ARC-AGI-2 22.8%($0.25/任务)、ARC-AGI-1 77.0%($0.19/任务),并明确其「性能可比 GPT-5.4 与 GPT-5.5 的低推理档(Low Reasoning Effort)」。Wharton 教授 Ethan Mollick 给出历史对照:首个在 ARC-AGI-2 上达到 23% 的模型是 2025 年 11 月的 Gemini 3 Pro(实际 31%)。据此他判断「闭源与开源之间 8–12 个月的差距仍然成立」,但同时指出开源模型「更参差(jagged)——某些任务更强,某些更弱」。
生产侧落地。 Cognition 旗下 Devin 的桌面端与 CLI 同时上线 GLM-5.2 与 Kimi K2.7 Code,在 Devin 自家的真实工程任务基准 FrontierCode Extended 上,GLM-5.2 拿到 43.0%,高于 Kimi K2.7 Code 的 39.5%;Pro/Max/Teams 用户可免费试用至 7 月 5 日。此外 GLM-5.2 也已出现在 Cloudflare 与 Cursor 的可用模型列表中,开发者可低门槛、甚至免费调用。
团队首次到访硅谷。 GLM 团队成员 Lou(@louszbd)宣布带队抵达旧金山,参加 AI Engineer World’s Fair,并表示「这是我们第一次在硅谷正式亮相」。swyx 顺势点出更大的商业背景:Z.ai 今年 1 月以港币 120 元/股 IPO,如今股价已攀升至约 2400 港元、涨幅逾 1700%、市值突破 1 万亿港币;从「几乎没人用 GLM」到「世界公认第一开源模型」,是这一年最快的信任跃迁。
为何重要
第一,开源模型的竞争重心正在从「刷分」转向「效率 × 质量 × 可得性」的复合维度。GLM-5.2 的真正分量不在于某一个数字,而在于它同时做到:质量逼近闭源低推理档、推理速度领先、权重开放、且已接入主流 agent 与边缘推理平台。这套组合在过去通常是闭源旗舰的特权。
第二,效率是 agent 时代的真正瓶颈。长时运行的 agent 回合需要大量、连续的 token 生成,单位 token 的延迟与成本直接决定一个任务「跑不跑得通」。GLM-5.2 把开源模型的速度推到 300 token/s 量级,即便按质疑者「折半」的保守估计,也足以改变长链路 agent 的经济学——这正是它能进入 Devin、被 Cursor 用户直接感知「更快」的底层原因。
第三,开源榜首易主具有生态含义。过去一年「最强开源模型」的标签长期贴在 DeepSeek 身上,如今 swyx 直接判定 GLM「击败 DeepSeek、成为世界公认第一开源模型」。榜单领导权从一家迁移到另一家,意味着开源生态的默认选项正在重排;而 Z.ai 作为港股上市公司、清华系创始团队、首次物理现身硅谷,具备把技术领先转化为生态占位的能力。
第四,Mollick 提出的「参差(jagged)」值得被认真对待。开源模型不是均匀地落后,而是某些维度已追平甚至反超、另一些维度仍有明显落差。对使用者而言,这指向一个更务实的策略:多模型路由,而非押注单一赢家。
围绕 318 token/s 的争论——是峰值还是均值、prefill 会不会拖后腿——问对了细节,却问错了重点。在 agent 时代,决定一个模型能否进入生产长跑的不是峰值智力,而是「单位成本下持续吐 token 的能力」。即便把 318 砍到一半,一个开源、前沿级、又能稳定输出 150+ token/s 的模型,已经足以重写长链路 agent 的成本结构;这才是它被 Devin 选中、被 Cursor 用户直接感知「变快」的原因。盯峰值数字,会错过这一层。
Mollick 的「8–12 个月差距仍然成立」是诚实的,但越来越不是最值得看的框架。更有信息量的事实是:开源模型开始在闭源厂商收取溢价的那个维度——推理效率——上反超,而它们的「参差」恰恰说明没有任何单一模型能通吃。对开发者而言,真正理性的动作不是争论「GLM 还是 DeepSeek 谁是开源之王」,而是把模型当可替换的推理后端、按任务特征做路由。把宝押在某个旗舰上的时代正在过去。
至于硅谷这趟:一个港股上市、市值破万亿的中国实验室,带着「世界公认第一开源模型」的头衔首次站到旧金山舞台上,这件事的信号意义大于任何一条 benchmark。它意味着开源权重阵营的领导权,正在从「匿名的 DeepSeek」转移到「一个有商业实体、愿意到场、开放做生意」的 GLM——而生态的默认值,往往就是被这种「在场」改写的。
需要保留的分寸:ARC-AGI-2 22.8%、FrontierCode 43.0% 都是单一基线、新发布模型上的点估测,方向性可信、定性尚早。「参差」本身就是一句提醒——别用一个分数给模型下定论,也别用一周的热度给格局下定论。
接下来看什么
- 318 token/s 的可持续性:关注第三方在长上下文、高并发下的实测吞吐,而非厂商公布的峰值;prefill 是否成为真实瓶颈,是判断该数字成色的关键。
- 高推理档位的差距:ARC-AGI-2 22.8% 是低推理档结果,值得追踪 GLM-5.2 在更高推理预算下与 GPT-5.x high reasoning 的距离是否进一步收窄。
- 生产侧长跑反馈:Devin、Cursor、Cloudflare 上跑 agent 回合 10 小时以上的稳定性与退化曲线,比单轮 benchmark 更说明问题。
- DeepSeek 的回应:开源榜首易主后,DeepSeek 下一版本能否夺回,将决定「开源第一」是否成为两家轮坐的位置。
- AI Engineer World’s Fair 的发布内容:团队预告会「分享近期工作」,现场具体放出什么(新模型/工具/合作)是短期增量。
- 闭源-开源差距的年度检验:到年底回看 Mollick 的「8–12 个月」判断是否仍成立,是观察开源追平速度的最佳标尺。