Topic Timeline

#推理成本

这个主题在过往早报中的出现记录。深度条目直达研究报告，其余条目回到当日 edition。

行业动态 2026-06-28 · 周日重要度 3/5

Coinbase 工程拆解:AI 支出砍半靠自建 LLM 网关 + 换默认模型 + 缓存路由

据 @markletree 转述 Coinbase 工程实现细节:本季度 AI 支出几乎砍半、token 用量持续攀升,全部请求走自建 LLM 网关(单一端点 + 格式,跨厂商故障转移、脱敏、日志、成本管控)。三招省钱:(1)更便宜的默认模型——91% 员工根本碰不到用量上限,于是不降配额、改默认廉价模型(据 CEO Brian Armstrong 称在试用 GLM 5.2、Kimi 2.7 等开源权重);(2)缓存——在 LibreChat 把命中率从 5% 拉到 60%;(3)缓存感知路由——对话缓存热时保持同一模型,TTL 失效后才重新选最优模型。

这是『开源追平』那条主线最硬的需求侧证据——而且它比『换个便宜模型』复杂得多。Coinbase 的关键洞察是:省钱的杠杆不只在模型单价,更在工程架构(网关 + 缓存命中率 + 缓存感知路由)。把缓存命中率从 5% 拉到 60% 这一招,价值可能不亚于换模型本身,因为它直接决定了每次请求要为多少 token 付全价。这条也给所有想复制 Coinbase 路线的企业提了个醒:换开源默认模型是入场券,真正把成本压下来的是围绕它的整套 LLMOps 工程。同时『支出砍半但 token 用量仍涨』再次验证:低价不是用来省钱的,是用来买更多 agentic 调用的——这正是开源把 frontier 能力打到白菜价后,需求被进一步激发的样子。

行业动态 2026-06-28 · 周日重要度 4/5 深度报告 →

开源权重追平闭源前沿:差距稳定在 3-6 个月,企业开始大规模换模型

OpenRouter 6 月 Insights《The Open Weight Models that Matter》给出关键判断:开源权重与闭源前沿的性能差距已稳定在 3-6 个月,过去 18 个月没被拉开——『真实但很窄,并未扩大』。支撑这一判断的是同时跨过『agentic 临界点』的四个开源模型:DeepSeek V4 Flash(约 2840 亿参数 MoE,SWE-bench Verified 79.0%,V4 Pro 80.6% 开源最高;首方定价输入/输出 $0.14/$0.28,输出成本约为 GPT-5.5 的 1/150)、智谱 GLM 5.2(AA 开源权重智能指数 51 列开源第一)、MiniMax M3(原生文/图/视频长上下文对标 Gemini Flash)、英伟达 Nemotron 3 Ultra(550B/55B-active Mamba-2 混合,最强美国本土开源)。需求侧:据转述 Coinbase 把默认模型换成 GLM 5.2/Kimi 后 AI 支出近乎减半(token 用量仍涨)。benchmark 多为厂商自报/聚合,价格口径差异显著。

模型发布 2026-06-22 · 周一重要度 4/5 深度报告 →

智谱 GLM-5.2 开源压成本:753B MoE、MIT 许可,自报 SWE-bench Pro 62.1

智谱(Z.ai)于 6 月 13 日发布开源 GLM-5.2:753B 参数 MoE(约 40B 激活)、MIT 许可、1M 上下文。官方自报 SWE-bench Pro 62.1(vs GLM-5.1 的 58.4)、Terminal-Bench 2.1 约 81.0,API 价约 $1.40/M 输入、$4.40/M 输出,折合约 GPT-5.5 的六分之一。本地部署据称需至少 8 张 H100(FP8)。

开源前沿模型『以价换量』的主线在 6 月持续:MIT 许可移除法律门槛,价格再压一个数量级,把推理成本压力直接传导给闭源厂商。但要冷静看待——这些 benchmark 是厂商自报,各源对 Terminal-Bench 口径已出现分歧(81.0 vs 62/63.5),且本地跑满需 8×H100,真正的门槛从『许可』转向『算力』。对多数团队,现实路径仍是调 API 而非自托管。等第三方独立复现再下结论。