行业动态

开源权重追平闭源前沿:差距稳定在 3-6 个月,企业开始大规模换模型

OpenRouter:开源与闭源前沿差距稳定 3-6 个月、18 个月没被拉开;DeepSeek V4 Flash 输出成本约为 GPT-5.5 的 1/150,企业开始大规模换模型省钱。

2026年6月28日 · 周日 深度报告 中置信 重要度 4/5

6 月 27 日,模型聚合商 OpenRouter 发布了一篇 6 月 Insights 博客《The Open Weight Models that Matter》,给出一个会被反复引用的判断:开源权重模型与闭源前沿的性能差距,已经稳定在 3-6 个月,而且这个差距『维持了超过 18 个月』、『真实但很窄,并未扩大』。第二天,这个论点经 @0xLogicrw 等账号转述进入中文社区,配上一组很有冲击力的数字——DeepSeek V4 Flash(约 2840 亿参数 MoE)在 SWE-bench Verified 拿到 79.0%,逼近 GPT-5.5;首方定价输入/输出 $0.14/$0.28 每百万 token,OpenRouter 称其输出成本约为 GPT-5.5 的 1/150

支撑「开源在追平」这一判断的,不是某一个模型,而是 2026 年 4-6 月集中冒头、同时跨过『能驱动真实 agentic pipeline』门槛的四款开源权重模型:DeepSeek V4 Flash、智谱 GLM 5.2(Artificial Analysis 开源权重智能指数 51、列开源第一)、MiniMax M3(用稀疏注意力做原生多模态长上下文)、英伟达 Nemotron 3 Ultra550B/55B-active 的 Mamba-2 混合架构)。与供给侧同步的是需求侧的转向:据 @0xLogicrw 转述,Coinbase 把默认模型换成 GLM 5.2/Kimi 等开源权重后,AI 支出几乎减半(且 token 用量还在涨)。把这些碎片拼起来,是一张「开源追赶」的大图景——但每一块拼图的口径都需要单独看清楚。

发生了什么

OpenRouter 的核心判断:差距窄,且没被拉开

OpenRouter 这家位置很特殊:它是横跨几乎所有闭源与开源模型的推理聚合入口,能同时看到「哪些模型在被真实调用、被调用去干什么」。它在 6 月 Insights 里的结论分两层:

第一层是性能——开源前沿落后闭源前沿大约 3-6 个月,这个差距已经维持了超过 18 个月。换句话说,闭源实验室每往前走一步,开源会在一两个季度内跟上;过去一年半,没有任何一家闭源实验室靠某次发布把这个身位永久拉开。OpenRouter 的措辞很克制:差距是「真实的、但很窄的,而且没有在扩大」。

第二层是可用性——它点名了「最值得用的四个开源权重模型」,并强调这四个已经跨过了一个临界点:不再只是「便宜的聊天模型」,而是能可靠地驱动真实的 agentic / coding pipeline。这正是与「追平」论点最相关的部分:开源不只是在 benchmark 分数上接近,而是在真实生产负载里开始能替代闭源。

四个开源模型,各占一个生态位

OpenRouter 给每个模型配了一句定位,合起来正好覆盖了开源追赶的四条战线:

  • DeepSeek V4 Flash——「第一个跨过 agentic 临界点」的开源模型。2840 亿参数 / 130 亿激活的 MoE,1M 上下文,MIT 许可,2026 年 4 月发布。DeepSeek 官网挂出的描述是「DeepSeek-V4 预览版发布,具备世界顶级推理性能,Agent 能力大幅提高」。SWE-bench Verified 79.0%,更大的 V4 Pro 拿到 80.6%——被 OpenRouter 称为「开源权重最高分」。
  • GLM 5.2——规划质量的突破口。 智谱(Z.ai)6 月中旬发布,OpenRouter 说它「在规划质量和长程编码上突破」,Artificial Analysis 智能指数 51、列开源第一,仅落后榜首 Claude Fable 5 约 5 分,在 GDPval-AA v2 上「基本与 GPT-5.5 xhigh 持平」。代价是 text-only、token 消耗大、且非常新。
  • MiniMax M3——多模态长上下文。4280 亿参数 / 230 亿激活的 MoE,1M 上下文,用 MiniMax 稀疏注意力(MSA)做原生文本/图像/视频理解,是四个里唯一原生多模态的,对标 Gemini Flash。许可不是 MIT,而是 MiniMax 社区许可(商用需授权/署名)。
  • NVIDIA Nemotron 3 Ultra——美国本土开源的加速器。 550B/55B-activeMamba-2 + Transformer 混合 MoE(英伟达 HuggingFace 页确认为 LatentMoE + MTP 架构、NVFP4),1M 上下文,OpenMDW 许可,AA 指数 48、列开源第二,被称为「最强的美国本土开源」。

四个模型里,三个来自中国厂商(DeepSeek、智谱、MiniMax),一个来自美国(英伟达)——这本身就是当前开源格局的一个注脚。

需求侧:企业开始「换默认模型」

OpenRouter 把整篇 Insights 的落点放在「企业 6 月为何选这些开源模型」。而 X 侧给出了一个具体案例:据 @0xLogicrw 转述,Coinbase 把默认模型从闭源换成 GLM 5.2 / Kimi 2.7 等开源权重后,AI 支出几乎减半,而且省钱并没有让用量下降——token 消耗反而还在增长。这个细节比「省了多少钱」更重要:它说明换模型不是「砍预算」,而是「同样的钱买到更多调用」,需求被低价进一步激发。

需要明确的是:Coinbase 这组数字是单一 X 转述,OpenRouter 原文里并没有出现 Coinbase,也没有给出具体的 token 用量或市场份额数据——这一条标注「待核实」。

关键数据 / 技术细节

把四个开源模型与闭源前沿放在一张表里,「差距窄、价差大」一目了然。所有 benchmark 与价格均为厂商自报或第三方聚合,价格口径见表下注。

模型厂商/类型参数(总/激活)AA 智能指数SWE-bench Verified定价(输入/输出,每百万 token)许可
DeepSeek V4 Flash深度求索 / 开源约 284B / 13B MoE4079.0%$0.14 / $0.28(缓存命中输入 $0.0028)MIT
DeepSeek V4 Pro深度求索 / 开源更大 MoE4480.6%(开源最高)$0.435 / $0.87MIT
GLM 5.2智谱 Z.ai / 开源未披露51(开源第一)$0.447 / $3.31(加权)开源权重
MiniMax M3MiniMax / 开源约 428B / 23B MoE44$0.098 / $1.21(>512k 上浮)社区许可
Nemotron 3 Ultra英伟达 / 开源550B / 55B 混合48(开源第二)$0.423 / $2.61(含 :free 路由)OpenMDW
Kimi K2.6月之暗面 / 开源43$0.70(blended)开源权重
—— 闭源前沿对照 ——
Claude Fable 5Anthropic / 闭源60(总榜第一)$7.70(blended)闭源
Claude Opus 4.8Anthropic / 闭源56$3.85(blended)闭源
GPT-5.5(xhigh)OpenAI / 闭源55$4.35(blended)闭源
Gemini 3.5 FlashGoogle / 闭源50$1.31(blended)闭源

价格口径警示(务必读)

  • DeepSeek V4 Flash 的 $0.14/$0.28DeepSeek 首方价(官方定价文档逐项确认,cache-miss 输入 $0.14、输出 $0.28、缓存命中输入 $0.0028)。但 OpenRouter「At a glance」表给出更低的 $0.054/$0.242(聚合加权口径),两者不一致。
  • DeepSeek 首方 API 「数据在中国留存并用于训练」,西方「无训练」托管价约为首方两倍。所以「比 GPT-5.5 便宜约 1/150」是理想口径,实际企业成本要看托管方式。
  • AA 的 blended 价是 7:2:1 缓存/输入/输出的特定加权,不能直接当 API 标价用。
  • AA 榜单按 effort 档拆分(GPT-5.5 有 medium/high/xhigh 三行),名次随口径浮动。

另:deepseek-chat / deepseek-reasoner 别名将于 2026-07-24 弃用(DeepSeek 官方文档)。

这张表里最该被记住的,是**「同等智能、价差一个数量级」:GLM 5.2 以 AA 指数 51 紧贴闭源第二梯队,blended 价约 $0.90,而同档的 Opus 4.8 约 $3.85、Fable 5 约 $7.70;DeepSeek V4 一档则把价格压到 $0.2-0.9 区间。闭源仍牢牢占据 AA 总榜前五**(全是 Anthropic 与 OpenAI),但第六名开始就是开源的 GLM 5.2——这正是「差距窄」最直观的证据。

扩展:DeepSeek 的 DSpark / DeepSpec 投机解码(X 转述,6 月 27 日)

据 @0xLogicrw 转述,DeepSeek 联合北京大学发布投机采样加速框架 DSpark 技术报告,并开源全栈代码库 DeepSpec,DSpark 已部署于 DeepSeek-V4 线上业务。在输出无损前提下:Flash 版单用户生成速度提升 60%-85%,Pro 版提升 57%-78%,超过原 MTP-1 基线(@danielhanchen 转述称综合吞吐提升「51% 到 400%」)。技术上先用 DFlash 并行主干生成隐藏状态,再追加轻量马尔可夫头(查表 + 一次矩阵乘)串行注入相邻词关联,配合置信度预测头与异步零开销调度避免高并发下吞吐崩塌。DeepSpec 内置支持 Qwen3、Gemma,提供从下载到基准评估的完整 Python 工具链。

这条解释了开源模型「不只是便宜,还在持续优化推理效率」——成本优势不是一次性的,而是被工程化地持续压低。本段为 X 转述,技术报告与代码库细节以官方仓库为准。

为何重要

第一,「3-6 个月差距」如果成立,会重写企业的模型采购逻辑。 过去企业默认「最强的就是最贵的闭源前沿」,是因为开源落后得「看得见」。但如果差距稳定在一个季度左右、且绝大多数生产任务并不需要榜首那 4-5 分的智能溢价,那么理性的买方会把「默认模型」换成性价比高一个数量级的开源权重,只在少数真正吃智能的任务上调用闭源前沿。Coinbase「支出减半、用量还涨」的案例(若属实)正是这套逻辑的样板——这不是「省钱」,而是「同样预算做更多 agentic 调用」。一旦这成为常态,闭源实验室靠「我最强」收取的溢价就会被压缩到一个很窄的高端区间。

第二,开源的护城河正在从『性能』转向『成本 × 可控』。 OpenRouter 给四个模型的定位很说明问题:DeepSeek V4 Flash 是「最低成本的 frontier agentic」,GLM 5.2 是「规划质量优先」,MiniMax M3 是「原生多模态长上下文」,Nemotron 是「美国本土 + 可自托管」。注意最后两个的潜台词——许可与托管地点正在成为选型的一等变量。DeepSeek 首方价虽低,但「数据在中国留存训练」的合规代价让西方企业要么付双倍用无训练托管、要么转向 Nemotron 这类本土开源。换句话说,开源的竞争已经不只是「谁分高」,而是「谁能在你的合规边界内、用你能接受的价格、跑你的真实负载」

第三,它和这一周的两条线索精确咬合:地缘管制与评测方法论。 时点上,GLM 5.2 据报道发布于美国出口管制指令迫使 Anthropic 广泛停用 Fable 5 / Mythos 5 之后数日——当闭源前沿因管制而对部分用户「不可用」时,开源权重「可下载、可自托管、不受单一供应商管制」的属性,第一次从「便宜的替代品」变成「不会被断供的基础设施」。方法论上,swyx 顺着 Noam Brown「评测应固定推理预算」的说法推出一个直击要害的结论:开源在「每美元算力买到的 token」上远比闭源 API 划算,因此思考强度(thinking levels)应当按推理服务商上的美元成本、而非横轴上的 token 数来标注。这看似是技术细节,实则是给开源模型「正名」——现行 benchmark 多按 token 或 effort 档对齐,系统性地低估了开源的性价比;一旦改按成本对齐,开源模型的排名会被整体抬升。

第四,对不同角色的影响是分化的。开发者,这是「白菜价拿到 frontier agentic」的窗口,但要付出 prompt/工具链迁移与多模型路由的工程成本。对企业买方,省钱诱惑巨大,但合规口径(数据留存、许可类型、自托管能力)和「benchmark 是否等于真实任务表现」是两道必答题。对闭源实验室,压力不在「失去榜首」,而在「中间档被开源吃掉」——当 80% 的负载都能用开源跑,闭源的定价权会被挤到顶端那 20%。对开源生态,中国厂商目前在数量与性价比上领先,美国靠英伟达等扳回一城,但 license(MIT vs OpenMDW vs 社区许可)的碎片化会成为下一个摩擦点。

早报观点

「开源追平闭源」这个标题,正确的读法不是「开源赢了」,而是「前沿性能正在变成一种会快速折旧的资产」。OpenRouter 那句「3-6 个月差距、18 个月没被拉开」的真正含义是:闭源实验室花大价钱抢到的领先,保鲜期只有一个季度左右,然后就会被开源以一个数量级更低的价格复刻。这对行业格局的冲击,比任何单一模型的发布都大——它意味着「最强模型」的商业价值正在从「长期溢价」塌缩成「短期窗口」。

但我要给三组很硬的 caveat,因为这篇东西最容易被当成「开源无脑赢」的爽文来传。

其一,「3-6 个月」是判断不是度量。OpenRouter 没有给出「前沿时点」的可复现定义,也没说清是按哪个 benchmark、哪个档位算的;中文社区拿到的版本还是 @0xLogicrw 的二手转述。AA 榜单本身就证明了口径的脆弱——GPT-5.5 按 medium/high/xhigh 拆成三行,名次随 effort 浮动,开源「列第六」很大程度上取决于你把闭源的哪个档位摆进来。所以这个差距更适合当方向性信号:开源在快速逼近,但「3-6 个月」别当成精确刻度。

其二,那个最震撼的「便宜 150 倍」是理想口径,真实账单要打折。DeepSeek 首方价 $0.14/$0.28 是确认的,但 OpenRouter 自己的聚合表又给出 $0.054/$0.242 的另一组数,两套口径并存;更关键的是首方 API「数据留存中国并用于训练」,西方企业要么接受这条、要么付约两倍的无训练托管价。把这些折算进去,开源对闭源的成本优势依然巨大,但「150x」是实验室条件下的上限,不是企业拿到的真实倍数。swyx 那条「按成本($)对齐」的提醒恰好点到反面——当 agentic 任务异步长跑、token 海量消耗时,真正决定成本的是「每个任务烧多少钱」,而便宜的单价反而会诱导用量暴涨(Coinbase「省钱但用量涨」就是预演)。省下的钱有多少会被新增用量吃回去,是 CFO 们第一个月账单上才会学到的一课。

其三,「企业大规模采用」目前还是一个案例 + 一个聚合商的叙事,证据链偏薄。Coinbase 那组「支出减半」是单一 X 转述、无官方印证;OpenRouter 原文压根没提 Coinbase,也没给 token 份额数据。这不是说趋势是假的——OpenRouter 作为聚合入口把整篇博客落点放在「企业为何选开源」,本身就是有分量的需求侧信号;但「大规模采用」这个说法,现在更像是正在发生、尚未被充分量化。在看到第二家、第三家公开披露成本曲线之前,把它当「强趋势的早期证据」比当「既成事实」更稳妥。

一句话:开源把「frontier 级 agentic」打到了白菜价,这是 2026 年最重要的结构性变化之一,闭源的溢价窗口正在肉眼可见地收窄;但「差距 3-6 个月」是定性判断、「便宜 150 倍」是理想口径、「企业大规模换模型」是早期叙事——三个最抓眼球的点,恰好都是最需要追问口径的点。

接下来看什么

  • 下一期榜单的差距走向:GPT-5.6 三档(Sol/Terra/Luna)与 Claude 新模型发布后,OpenRouter / Artificial Analysis 的开源-闭源差距是收窄、持平,还是被重新拉开——这是验证「3-6 个月」是否成立的最直接指标。
  • 开源的追赶速度:盯 DeepSeek V4 一档、GLM、Nemotron 在 SWE-bench Verified 与 AA 指数上对新闭源前沿的追平耗时,是否仍维持在一个季度量级。
  • 成本口径的落地真相:DeepSeek 首方价 vs 西方无训练托管价的实际差额,以及「数据留存训练」的合规口径会不会成为西方企业弃用首方 API 的硬门槛。
  • 企业采用的硬证据:Coinbase「AI 支出减半」能否得到官方或财报印证;是否有更多大型企业公开「默认模型换开源」的成本曲线——这是把「叙事」变成「事实」的关键。
  • 多模态与本土开源的真实表现:MiniMax M3 的原生文/图/视频长上下文在真实 agentic 任务上是否真能对标 Gemini Flash;Nemotron 等美国本土开源能否在 license 与生态上缩小与中国开源的份额差。
  • 评测方法论之争:「按成本($)而非 token 对齐思考强度」是否被主流 benchmark 采纳——若采纳,开源模型的性价比排名会被系统性抬高,这会反过来加速企业迁移。