Topic Timeline

#开源追平

这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。

产品上新 2026-07-01 · 周三 重要度 2/5

LongCat-2.0 / GLM 5.2 设计任务实测:几乎所有类目击败 Opus 4.8,LongCat 物理任务表现优于 Opus 4.8 / GLM 5.2

Command Code 用 /design 在 SaaS、作品集、仪表盘、建筑站、宠物店、房地产等设计任务上跑测试,GLM 5.2 在几乎所有类目上击败 Opus 4.8;LongCat-2.0 在真实物理任务(HTML5 canvas 写物理模拟:加农炮拆墙、保龄球击瓶、龙卷风卷物)上对标 Opus 4.8 与 GPT 5.5 表现,LongCat 物理效果优于 Opus 4.8 与 GLM 5.2(无穿模/掉落),细节与渲染与 GPT 5.5 持平;LongCat 18,015 tokens / $0.00、Opus 4.8 18,872 / $0.48、GPT 5.5 32,588 / $0.98、GLM 5.2 31,062 / $0.09。GLM-5.2 成为 Z.ai 在 Hugging Face 历史上最受好评的模型。Qwen3.6 27B 在某种设置下把自家 35B A3B 吊着打。

GLM 5.2 / LongCat-2.0 / Qwen3.6 27B 的实测数据,共同把『开源追平闭源』从 6-28 OpenRouter Insights 的判断推进到具体场景验证:设计任务几乎全面击败 Opus 4.8,物理任务优于 Opus 4.8 / GLM 5.2。这是继 6-28 『3-6 个月差距稳定』之后的第一次具体场景验证——但需注意:这些测试是 Command Code / atomic_chat 等单一第三方,在 SaaS / 物理模拟这种垂直场景下的样本,不构成全面评测。Qwen3.6 27B 把自家 35B A3B 吊着打则说明『小模型靠精调跑赢大模型』的现象已经在阿里内部出现。