GLM 5.2 领跑开源：318 token/s、ARC-AGI、硅谷热议

Z.ai 的 GLM-5.2 正以前所未有的方式占据开源模型的话语权：推理速度被推到 318 token/s，在 ARC-AGI 验证测试上 ARC-AGI-2 拿到 22.8%、ARC-AGI-1 拿到 77.0%，ARC Prize 官方给出的判断是「性能可比 GPT-5.4 与 GPT-5.5 的低推理档」。与此同时它已接入 Devin、Cursor、Cloudflare 等生产侧，而 GLM 团队首次集体到访硅谷、在 AI Engineer World’s Fair 亮相——Z.ai 创始人唐杰本人转发速度数据时只留下一句「318 tps…crazy…」。

发生了什么

速度：280 → 318 token/s。 此前业界已知 GLM-5.2 的推理速度约 280 token/s，资深推理工程师 Dmytro Dzhulgakov 公布了一组新数字——318 token/s，且称「还有上升空间」。唐杰在转发这条时直言「crazy…how can you make this happen」，并表态「we have to work harder even more」。评论区立刻出现两种声音：有人据此理解「怪不得在 Cursor 里这么快」，也有人质疑这是峰值而非平均、长输入下 prefill 会成为瓶颈。

质量：ARC-AGI 验证达标。 ARC Prize 官方账号发布了 GLM-5.2 的 ARC-AGI（Verified）成绩：ARC-AGI-2 22.8%（$0.25/任务）、ARC-AGI-1 77.0%（$0.19/任务），并明确其「性能可比 GPT-5.4 与 GPT-5.5 的低推理档（Low Reasoning Effort）」。Wharton 教授 Ethan Mollick 给出历史对照：首个在 ARC-AGI-2 上达到 23% 的模型是 2025 年 11 月的 Gemini 3 Pro（实际 31%）。据此他判断「闭源与开源之间 8–12 个月的差距仍然成立」，但同时指出开源模型「更参差（jagged）——某些任务更强，某些更弱」。

生产侧落地。 Cognition 旗下 Devin 的桌面端与 CLI 同时上线 GLM-5.2 与 Kimi K2.7 Code，在 Devin 自家的真实工程任务基准 FrontierCode Extended 上，GLM-5.2 拿到 43.0%，高于 Kimi K2.7 Code 的 39.5%；Pro/Max/Teams 用户可免费试用至 7 月 5 日。此外 GLM-5.2 也已出现在 Cloudflare 与 Cursor 的可用模型列表中，开发者可低门槛、甚至免费调用。

团队首次到访硅谷。 GLM 团队成员 Lou（@louszbd）宣布带队抵达旧金山，参加 AI Engineer World’s Fair，并表示「这是我们第一次在硅谷正式亮相」。swyx 顺势点出更大的商业背景：Z.ai 今年 1 月以港币 120 元/股 IPO，如今股价已攀升至约 2400 港元、涨幅逾 1700%、市值突破 1 万亿港币；从「几乎没人用 GLM」到「世界公认第一开源模型」，是这一年最快的信任跃迁。

为何重要

第一，开源模型的竞争重心正在从「刷分」转向「效率 × 质量 × 可得性」的复合维度。GLM-5.2 的真正分量不在于某一个数字，而在于它同时做到：质量逼近闭源低推理档、推理速度领先、权重开放、且已接入主流 agent 与边缘推理平台。这套组合在过去通常是闭源旗舰的特权。

第二，效率是 agent 时代的真正瓶颈。长时运行的 agent 回合需要大量、连续的 token 生成，单位 token 的延迟与成本直接决定一个任务「跑不跑得通」。GLM-5.2 把开源模型的速度推到 300 token/s 量级，即便按质疑者「折半」的保守估计，也足以改变长链路 agent 的经济学——这正是它能进入 Devin、被 Cursor 用户直接感知「更快」的底层原因。

第三，开源榜首易主具有生态含义。过去一年「最强开源模型」的标签长期贴在 DeepSeek 身上，如今 swyx 直接判定 GLM「击败 DeepSeek、成为世界公认第一开源模型」。榜单领导权从一家迁移到另一家，意味着开源生态的默认选项正在重排；而 Z.ai 作为港股上市公司、清华系创始团队、首次物理现身硅谷，具备把技术领先转化为生态占位的能力。

第四，Mollick 提出的「参差（jagged）」值得被认真对待。开源模型不是均匀地落后，而是某些维度已追平甚至反超、另一些维度仍有明显落差。对使用者而言，这指向一个更务实的策略：多模型路由，而非押注单一赢家。

日报观点

围绕 318 token/s 的争论——是峰值还是均值、prefill 会不会拖后腿——问对了细节，却问错了重点。在 agent 时代，决定一个模型能否进入生产长跑的不是峰值智力，而是「单位成本下持续吐 token 的能力」。即便把 318 砍到一半，一个开源、前沿级、又能稳定输出 150+ token/s 的模型，已经足以重写长链路 agent 的成本结构；这才是它被 Devin 选中、被 Cursor 用户直接感知「变快」的原因。盯峰值数字，会错过这一层。

Mollick 的「8–12 个月差距仍然成立」是诚实的，但越来越不是最值得看的框架。更有信息量的事实是：开源模型开始在闭源厂商收取溢价的那个维度——推理效率——上反超，而它们的「参差」恰恰说明没有任何单一模型能通吃。对开发者而言，真正理性的动作不是争论「GLM 还是 DeepSeek 谁是开源之王」，而是把模型当可替换的推理后端、按任务特征做路由。把宝押在某个旗舰上的时代正在过去。

至于硅谷这趟：一个港股上市、市值破万亿的中国实验室，带着「世界公认第一开源模型」的头衔首次站到旧金山舞台上，这件事的信号意义大于任何一条 benchmark。它意味着开源权重阵营的领导权，正在从「匿名的 DeepSeek」转移到「一个有商业实体、愿意到场、开放做生意」的 GLM——而生态的默认值，往往就是被这种「在场」改写的。

需要保留的分寸：ARC-AGI-2 22.8%、FrontierCode 43.0% 都是单一基线、新发布模型上的点估测，方向性可信、定性尚早。「参差」本身就是一句提醒——别用一个分数给模型下定论，也别用一周的热度给格局下定论。

接下来看什么

318 token/s 的可持续性：关注第三方在长上下文、高并发下的实测吞吐，而非厂商公布的峰值；prefill 是否成为真实瓶颈，是判断该数字成色的关键。
高推理档位的差距：ARC-AGI-2 22.8% 是低推理档结果，值得追踪 GLM-5.2 在更高推理预算下与 GPT-5.x high reasoning 的距离是否进一步收窄。
生产侧长跑反馈：Devin、Cursor、Cloudflare 上跑 agent 回合 10 小时以上的稳定性与退化曲线，比单轮 benchmark 更说明问题。
DeepSeek 的回应：开源榜首易主后，DeepSeek 下一版本能否夺回，将决定「开源第一」是否成为两家轮坐的位置。
AI Engineer World’s Fair 的发布内容：团队预告会「分享近期工作」，现场具体放出什么（新模型/工具/合作）是短期增量。
闭源-开源差距的年度检验：到年底回看 Mollick 的「8–12 个月」判断是否仍成立，是观察开源追平速度的最佳标尺。