行业动态

开源权重追平闭源前沿：差距稳定在 3-6 个月，企业开始大规模换模型

OpenRouter：开源与闭源前沿差距稳定 3-6 个月、18 个月没被拉开；DeepSeek V4 Flash 输出成本约为 GPT-5.5 的 1/150，企业开始大规模换模型省钱。

2026年6月28日 · 周日深度报告中置信重要度 4/5

#开源模型 #开源权重 #DeepSeek V4 #GLM 5.2 #MiniMax M3 #Nemotron 3 #OpenRouter #Artificial Analysis #推理成本 #企业采用

Research Pack

核心问题

『开源权重正在追平闭源前沿』到底是真趋势还是叙事？差距有多大、企业是否真的在大规模换模型，背后的成本账怎么算？

为什么是现在

2026 年 4-6 月中国与美国厂商连发四款开源权重模型（DeepSeek V4、GLM 5.2、MiniMax M3、Nemotron 3 Ultra）同时跨过『能驱动真实 agentic pipeline』的门槛；OpenRouter 6 月 27 日 Insights 把它们打包成『最值得用的四个开源模型』并给出 3-6 个月差距判断，叠加 GLM 5.2 恰在美国对 Anthropic Fable 5/Mythos 5 出口管制后数日发布，开源与闭源、地缘与成本的多条线在这一周交汇。

关键数字

3-6 个月
开源与闭源前沿的性能差距

79.0%
DeepSeek V4 Flash 的 SWE-bench Verified

$0.14 / $0.28
DeepSeek V4 Flash 首方定价（输入/输出）

51
GLM 5.2 的 Artificial Analysis 智能指数

6 月 27 日，模型聚合商 OpenRouter 发布了一篇 6 月 Insights 博客《The Open Weight Models that Matter》，给出一个会被反复引用的判断：开源权重模型与闭源前沿的性能差距，已经稳定在 3-6 个月，而且这个差距『维持了超过 18 个月』、『真实但很窄，并未扩大』。第二天，这个论点经 @0xLogicrw 等账号转述进入中文社区，配上一组很有冲击力的数字——DeepSeek V4 Flash（约 2840 亿参数 MoE）在 SWE-bench Verified 拿到 79.0%，逼近 GPT-5.5；首方定价输入/输出 $0.14/$0.28 每百万 token，OpenRouter 称其输出成本约为 GPT-5.5 的 1/150。

支撑「开源在追平」这一判断的，不是某一个模型，而是 2026 年 4-6 月集中冒头、同时跨过『能驱动真实 agentic pipeline』门槛的四款开源权重模型：DeepSeek V4 Flash、智谱 GLM 5.2（Artificial Analysis 开源权重智能指数 51、列开源第一）、MiniMax M3（用稀疏注意力做原生多模态长上下文）、英伟达 Nemotron 3 Ultra（550B/55B-active 的 Mamba-2 混合架构）。与供给侧同步的是需求侧的转向：据 @0xLogicrw 转述，Coinbase 把默认模型换成 GLM 5.2/Kimi 等开源权重后，AI 支出几乎减半（且 token 用量还在涨）。把这些碎片拼起来，是一张「开源追赶」的大图景——但每一块拼图的口径都需要单独看清楚。

发生了什么

OpenRouter 的核心判断：差距窄，且没被拉开

OpenRouter 这家位置很特殊：它是横跨几乎所有闭源与开源模型的推理聚合入口，能同时看到「哪些模型在被真实调用、被调用去干什么」。它在 6 月 Insights 里的结论分两层：

第一层是性能——开源前沿落后闭源前沿大约 3-6 个月，这个差距已经维持了超过 18 个月。换句话说，闭源实验室每往前走一步，开源会在一两个季度内跟上；过去一年半，没有任何一家闭源实验室靠某次发布把这个身位永久拉开。OpenRouter 的措辞很克制：差距是「真实的、但很窄的，而且没有在扩大」。

第二层是可用性——它点名了「最值得用的四个开源权重模型」，并强调这四个已经跨过了一个临界点：不再只是「便宜的聊天模型」，而是能可靠地驱动真实的 agentic / coding pipeline。这正是与「追平」论点最相关的部分：开源不只是在 benchmark 分数上接近，而是在真实生产负载里开始能替代闭源。

四个开源模型，各占一个生态位

OpenRouter 给每个模型配了一句定位，合起来正好覆盖了开源追赶的四条战线：

DeepSeek V4 Flash——「第一个跨过 agentic 临界点」的开源模型。 约 2840 亿参数 / 130 亿激活的 MoE，1M 上下文，MIT 许可，2026 年 4 月发布。DeepSeek 官网挂出的描述是「DeepSeek-V4 预览版发布，具备世界顶级推理性能，Agent 能力大幅提高」。SWE-bench Verified 79.0%，更大的 V4 Pro 拿到 80.6%——被 OpenRouter 称为「开源权重最高分」。
GLM 5.2——规划质量的突破口。 智谱（Z.ai）6 月中旬发布，OpenRouter 说它「在规划质量和长程编码上突破」，Artificial Analysis 智能指数 51、列开源第一，仅落后榜首 Claude Fable 5 约 5 分，在 GDPval-AA v2 上「基本与 GPT-5.5 xhigh 持平」。代价是 text-only、token 消耗大、且非常新。
MiniMax M3——多模态长上下文。 约 4280 亿参数 / 230 亿激活的 MoE，1M 上下文，用 MiniMax 稀疏注意力（MSA）做原生文本/图像/视频理解，是四个里唯一原生多模态的，对标 Gemini Flash。许可不是 MIT，而是 MiniMax 社区许可（商用需授权/署名）。
NVIDIA Nemotron 3 Ultra——美国本土开源的加速器。 550B/55B-active 的 Mamba-2 + Transformer 混合 MoE（英伟达 HuggingFace 页确认为 LatentMoE + MTP 架构、NVFP4），1M 上下文，OpenMDW 许可，AA 指数 48、列开源第二，被称为「最强的美国本土开源」。

四个模型里，三个来自中国厂商（DeepSeek、智谱、MiniMax），一个来自美国（英伟达）——这本身就是当前开源格局的一个注脚。

需求侧：企业开始「换默认模型」

OpenRouter 把整篇 Insights 的落点放在「企业 6 月为何选这些开源模型」。而 X 侧给出了一个具体案例：据 @0xLogicrw 转述，Coinbase 把默认模型从闭源换成 GLM 5.2 / Kimi 2.7 等开源权重后，AI 支出几乎减半，而且省钱并没有让用量下降——token 消耗反而还在增长。这个细节比「省了多少钱」更重要：它说明换模型不是「砍预算」，而是「同样的钱买到更多调用」，需求被低价进一步激发。

需要明确的是：Coinbase 这组数字是单一 X 转述，OpenRouter 原文里并没有出现 Coinbase，也没有给出具体的 token 用量或市场份额数据——这一条标注「待核实」。

关键数据 / 技术细节

把四个开源模型与闭源前沿放在一张表里，「差距窄、价差大」一目了然。所有 benchmark 与价格均为厂商自报或第三方聚合，价格口径见表下注。

模型	厂商/类型	参数（总/激活）	AA 智能指数	SWE-bench Verified	定价（输入/输出，每百万 token）	许可
DeepSeek V4 Flash	深度求索 / 开源	约 284B / 13B MoE	40	79.0%	$0.14 / $0.28（缓存命中输入 $0.0028）	MIT
DeepSeek V4 Pro	深度求索 / 开源	更大 MoE	44	80.6%（开源最高）	$0.435 / $0.87	MIT
GLM 5.2	智谱 Z.ai / 开源	未披露	51（开源第一）	—	$0.447 / $3.31（加权）	开源权重
MiniMax M3	MiniMax / 开源	约 428B / 23B MoE	44	—	$0.098 / $1.21（>512k 上浮）	社区许可
Nemotron 3 Ultra	英伟达 / 开源	550B / 55B 混合	48（开源第二）	—	$0.423 / $2.61（含 :free 路由）	OpenMDW
Kimi K2.6	月之暗面 / 开源	—	43	—	$0.70（blended）	开源权重
—— 闭源前沿对照 ——
Claude Fable 5	Anthropic / 闭源	—	60（总榜第一）	—	$7.70（blended）	闭源
Claude Opus 4.8	Anthropic / 闭源	—	56	—	$3.85（blended）	闭源
GPT-5.5（xhigh）	OpenAI / 闭源	—	55	—	$4.35（blended）	闭源
Gemini 3.5 Flash	Google / 闭源	—	50	—	$1.31（blended）	闭源

价格口径警示（务必读）：

DeepSeek V4 Flash 的 $0.14/$0.28 是 DeepSeek 首方价（官方定价文档逐项确认，cache-miss 输入 $0.14、输出 $0.28、缓存命中输入 $0.0028）。但 OpenRouter「At a glance」表给出更低的 $0.054/$0.242（聚合加权口径），两者不一致。

DeepSeek 首方 API 「数据在中国留存并用于训练」，西方「无训练」托管价约为首方两倍。所以「比 GPT-5.5 便宜约 1/150」是理想口径，实际企业成本要看托管方式。

AA 的 blended 价是 7:2:1 缓存/输入/输出的特定加权，不能直接当 API 标价用。

AA 榜单按 effort 档拆分（GPT-5.5 有 medium/high/xhigh 三行），名次随口径浮动。

另：deepseek-chat / deepseek-reasoner 别名将于 2026-07-24 弃用（DeepSeek 官方文档）。

这张表里最该被记住的，是**「同等智能、价差一个数量级」：GLM 5.2 以 AA 指数 51 紧贴闭源第二梯队，blended 价约 $0.90，而同档的 Opus 4.8 约 $3.85、Fable 5 约 $7.70；DeepSeek V4 一档则把价格压到 $0.2-0.9 区间。闭源仍牢牢占据 AA 总榜前五**（全是 Anthropic 与 OpenAI），但第六名开始就是开源的 GLM 5.2——这正是「差距窄」最直观的证据。

扩展：DeepSeek 的 DSpark / DeepSpec 投机解码（X 转述，6 月 27 日）

据 @0xLogicrw 转述，DeepSeek 联合北京大学发布投机采样加速框架 DSpark 技术报告，并开源全栈代码库 DeepSpec，DSpark 已部署于 DeepSeek-V4 线上业务。在输出无损前提下：Flash 版单用户生成速度提升 60%-85%，Pro 版提升 57%-78%，超过原 MTP-1 基线（@danielhanchen 转述称综合吞吐提升「51% 到 400%」）。技术上先用 DFlash 并行主干生成隐藏状态，再追加轻量马尔可夫头（查表 + 一次矩阵乘）串行注入相邻词关联，配合置信度预测头与异步零开销调度避免高并发下吞吐崩塌。DeepSpec 内置支持 Qwen3、Gemma，提供从下载到基准评估的完整 Python 工具链。

这条解释了开源模型「不只是便宜，还在持续优化推理效率」——成本优势不是一次性的，而是被工程化地持续压低。本段为 X 转述，技术报告与代码库细节以官方仓库为准。

为何重要

第一，「3-6 个月差距」如果成立，会重写企业的模型采购逻辑。 过去企业默认「最强的就是最贵的闭源前沿」，是因为开源落后得「看得见」。但如果差距稳定在一个季度左右、且绝大多数生产任务并不需要榜首那 4-5 分的智能溢价，那么理性的买方会把「默认模型」换成性价比高一个数量级的开源权重，只在少数真正吃智能的任务上调用闭源前沿。Coinbase「支出减半、用量还涨」的案例（若属实）正是这套逻辑的样板——这不是「省钱」，而是「同样预算做更多 agentic 调用」。一旦这成为常态，闭源实验室靠「我最强」收取的溢价就会被压缩到一个很窄的高端区间。

第二，开源的护城河正在从『性能』转向『成本 × 可控』。 OpenRouter 给四个模型的定位很说明问题：DeepSeek V4 Flash 是「最低成本的 frontier agentic」，GLM 5.2 是「规划质量优先」，MiniMax M3 是「原生多模态长上下文」，Nemotron 是「美国本土 + 可自托管」。注意最后两个的潜台词——许可与托管地点正在成为选型的一等变量。DeepSeek 首方价虽低，但「数据在中国留存训练」的合规代价让西方企业要么付双倍用无训练托管、要么转向 Nemotron 这类本土开源。换句话说，开源的竞争已经不只是「谁分高」，而是「谁能在你的合规边界内、用你能接受的价格、跑你的真实负载」。

第三，它和这一周的两条线索精确咬合：地缘管制与评测方法论。 时点上，GLM 5.2 据报道发布于美国出口管制指令迫使 Anthropic 广泛停用 Fable 5 / Mythos 5 之后数日——当闭源前沿因管制而对部分用户「不可用」时，开源权重「可下载、可自托管、不受单一供应商管制」的属性，第一次从「便宜的替代品」变成「不会被断供的基础设施」。方法论上，swyx 顺着 Noam Brown「评测应固定推理预算」的说法推出一个直击要害的结论：开源在「每美元算力买到的 token」上远比闭源 API 划算，因此思考强度（thinking levels）应当按推理服务商上的美元成本、而非横轴上的 token 数来标注。这看似是技术细节，实则是给开源模型「正名」——现行 benchmark 多按 token 或 effort 档对齐，系统性地低估了开源的性价比；一旦改按成本对齐，开源模型的排名会被整体抬升。

第四，对不同角色的影响是分化的。 对开发者，这是「白菜价拿到 frontier agentic」的窗口，但要付出 prompt/工具链迁移与多模型路由的工程成本。对企业买方，省钱诱惑巨大，但合规口径（数据留存、许可类型、自托管能力）和「benchmark 是否等于真实任务表现」是两道必答题。对闭源实验室，压力不在「失去榜首」，而在「中间档被开源吃掉」——当 80% 的负载都能用开源跑，闭源的定价权会被挤到顶端那 20%。对开源生态，中国厂商目前在数量与性价比上领先，美国靠英伟达等扳回一城，但 license（MIT vs OpenMDW vs 社区许可）的碎片化会成为下一个摩擦点。

早报观点

「开源追平闭源」这个标题，正确的读法不是「开源赢了」，而是「前沿性能正在变成一种会快速折旧的资产」。OpenRouter 那句「3-6 个月差距、18 个月没被拉开」的真正含义是：闭源实验室花大价钱抢到的领先，保鲜期只有一个季度左右，然后就会被开源以一个数量级更低的价格复刻。这对行业格局的冲击，比任何单一模型的发布都大——它意味着「最强模型」的商业价值正在从「长期溢价」塌缩成「短期窗口」。

但我要给三组很硬的 caveat，因为这篇东西最容易被当成「开源无脑赢」的爽文来传。

其一，「3-6 个月」是判断不是度量。OpenRouter 没有给出「前沿时点」的可复现定义，也没说清是按哪个 benchmark、哪个档位算的；中文社区拿到的版本还是 @0xLogicrw 的二手转述。AA 榜单本身就证明了口径的脆弱——GPT-5.5 按 medium/high/xhigh 拆成三行，名次随 effort 浮动，开源「列第六」很大程度上取决于你把闭源的哪个档位摆进来。所以这个差距更适合当方向性信号：开源在快速逼近，但「3-6 个月」别当成精确刻度。

其二，那个最震撼的「便宜 150 倍」是理想口径，真实账单要打折。DeepSeek 首方价 $0.14/$0.28 是确认的，但 OpenRouter 自己的聚合表又给出 $0.054/$0.242 的另一组数，两套口径并存；更关键的是首方 API「数据留存中国并用于训练」，西方企业要么接受这条、要么付约两倍的无训练托管价。把这些折算进去，开源对闭源的成本优势依然巨大，但「150x」是实验室条件下的上限，不是企业拿到的真实倍数。swyx 那条「按成本($)对齐」的提醒恰好点到反面——当 agentic 任务异步长跑、token 海量消耗时，真正决定成本的是「每个任务烧多少钱」，而便宜的单价反而会诱导用量暴涨（Coinbase「省钱但用量涨」就是预演）。省下的钱有多少会被新增用量吃回去，是 CFO 们第一个月账单上才会学到的一课。

其三，「企业大规模采用」目前还是一个案例 + 一个聚合商的叙事，证据链偏薄。Coinbase 那组「支出减半」是单一 X 转述、无官方印证；OpenRouter 原文压根没提 Coinbase，也没给 token 份额数据。这不是说趋势是假的——OpenRouter 作为聚合入口把整篇博客落点放在「企业为何选开源」，本身就是有分量的需求侧信号；但「大规模采用」这个说法，现在更像是正在发生、尚未被充分量化。在看到第二家、第三家公开披露成本曲线之前，把它当「强趋势的早期证据」比当「既成事实」更稳妥。

一句话：开源把「frontier 级 agentic」打到了白菜价，这是 2026 年最重要的结构性变化之一，闭源的溢价窗口正在肉眼可见地收窄；但「差距 3-6 个月」是定性判断、「便宜 150 倍」是理想口径、「企业大规模换模型」是早期叙事——三个最抓眼球的点，恰好都是最需要追问口径的点。

接下来看什么

下一期榜单的差距走向：GPT-5.6 三档（Sol/Terra/Luna）与 Claude 新模型发布后，OpenRouter / Artificial Analysis 的开源-闭源差距是收窄、持平，还是被重新拉开——这是验证「3-6 个月」是否成立的最直接指标。
开源的追赶速度：盯 DeepSeek V4 一档、GLM、Nemotron 在 SWE-bench Verified 与 AA 指数上对新闭源前沿的追平耗时，是否仍维持在一个季度量级。
成本口径的落地真相：DeepSeek 首方价 vs 西方无训练托管价的实际差额，以及「数据留存训练」的合规口径会不会成为西方企业弃用首方 API 的硬门槛。
企业采用的硬证据：Coinbase「AI 支出减半」能否得到官方或财报印证；是否有更多大型企业公开「默认模型换开源」的成本曲线——这是把「叙事」变成「事实」的关键。
多模态与本土开源的真实表现：MiniMax M3 的原生文/图/视频长上下文在真实 agentic 任务上是否真能对标 Gemini Flash；Nemotron 等美国本土开源能否在 license 与生态上缩小与中国开源的份额差。
评测方法论之争：「按成本($)而非 token 对齐思考强度」是否被主流 benchmark 采纳——若采纳，开源模型的性价比排名会被系统性抬高，这会反过来加速企业迁移。

Claim Audit

开源权重与闭源前沿的性能差距已稳定在 3-6 个月，过去 18 个月闭源没能把身位拉开

置信度：medium

『3-6 个月』是 OpenRouter 的定性判断而非可复现度量，缺乏统一的『前沿时点』定义；X 侧为 @0xLogicrw 转述。AA 榜单按版本/effort 档拆分（如 GPT-5.5 分 medium/high/xhigh），名次随口径浮动。

DeepSeek V4 Flash 已把『frontier 级 agentic/编码』做到极低成本，输出成本约为 GPT-5.5 的 1/150

置信度：medium

成本对比口径敏感：$0.14/$0.28 是 DeepSeek 首方价；OpenRouter『At a glance』表给出更低的 $0.054/$0.242（聚合加权），首方还存在『数据在中国留存并用于训练』的合规代价，西方无训练托管价约翻倍。SWE-bench 多为聚合/厂商自报，非统一第三方复测。

需求侧已开始大规模迁移：企业把默认模型换成开源权重以压成本，且换模型省下的钱被新增用量部分抵消

置信度：low

Coinbase 具体数字为单一 X 转述，未见公司官方披露或财报印证，标注待核实；OpenRouter 原文未出现 Coinbase 或具体 token 用量/份额数据。

评测该按成本($)而非 token 数对齐思考强度，这恰好是开源模型的结构性优势

置信度：medium

这是评测方法论倡议而非既成标准；多数公开 benchmark 仍按 token 或 effort 档对齐，按$对齐尚未被主流榜单采纳。AA blended 价为 7:2:1 缓存/输入/输出加权的特定口径。

Timeline

2026-04

DeepSeek V4 系列（含 Flash / Pro）发布并开源，MIT 许可、1M 上下文；DeepSeek 官网挂出『DeepSeek-V4 预览版发布，具备世界顶级推理性能，Agent 能力大幅提高』

2026-06 中旬

智谱 GLM 5.2 发布，在规划质量与长程编码上突破；据报道发布于美国出口管制指令（迫使 Anthropic 广泛停用 Fable 5 / Mythos 5）后数日

2026-06-27

OpenRouter 发布 6 月 Insights《The Open Weight Models that Matter》，点名四个开源模型已跨过 agentic 临界点，并复述 3-6 个月差距判断

2026-06-27

swyx 顺着 Noam Brown『评测应固定推理预算』推出结论：开源模型在『每美元算力买到的 token』上远比闭源 API 划算，思考强度应按成本($)而非 token 标注

2026-06-28

@0xLogicrw 在 X 转述 OpenRouter 分析与 Coinbase 换模型省钱案例，将『开源追平』论点扩散至中文社区

Sources

primary · OpenRouter Insights：The Open Weight Models that Matter — June 2026 benchmark · Artificial Analysis：LLM 智能榜单 official · DeepSeek API 官方定价文档 official · DeepSeek 官网 official · NVIDIA HuggingFace 模型库 community · @OpenRouter 官方推文 community · @0xLogicrw 推文（转述） community · @swyx 推文

Watch Next

OpenRouter / Artificial Analysis 下一期榜单：3-6 个月这个差距是收窄、持平还是被 GPT-5.6（Sol/Terra/Luna）重新拉开
GPT-5.6 三档与 Claude Opus 4.8/Fable 5 发布后，开源权重在 SWE-bench Verified / AA 指数上的追赶速度是否仍维持
DeepSeek V4 的首方价 vs 西方无训练托管价差，以及『数据在中国留存训练』的合规口径是否影响企业实际选型
Coinbase『AI 支出减半』能否得到公司官方或财报印证；是否有更多大型企业公开披露『默认模型换开源』的成本曲线
MiniMax M3 的原生多模态长上下文在真实图像/视频 agentic 任务上是否真能对标 Gemini Flash，而不仅是榜单分数
Nemotron 3 Ultra 等美国本土开源能否在 license（OpenMDW 而非 MIT）与生态上缩小与中国开源的份额差
『按成本($)对齐思考强度』是否被主流 benchmark 采纳——若采纳，开源模型的排名会被系统性抬升