Topic Timeline

#缓存

这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。

行业动态 2026-06-28 · 周日 重要度 3/5

Coinbase 工程拆解:AI 支出砍半靠自建 LLM 网关 + 换默认模型 + 缓存路由

据 @markletree 转述 Coinbase 工程实现细节:本季度 AI 支出几乎砍半、token 用量持续攀升,全部请求走自建 LLM 网关(单一端点 + 格式,跨厂商故障转移、脱敏、日志、成本管控)。三招省钱:(1)更便宜的默认模型——91% 员工根本碰不到用量上限,于是不降配额、改默认廉价模型(据 CEO Brian Armstrong 称在试用 GLM 5.2、Kimi 2.7 等开源权重);(2)缓存——在 LibreChat 把命中率从 5% 拉到 60%;(3)缓存感知路由——对话缓存热时保持同一模型,TTL 失效后才重新选最优模型。

这是『开源追平』那条主线最硬的需求侧证据——而且它比『换个便宜模型』复杂得多。Coinbase 的关键洞察是:省钱的杠杆不只在模型单价,更在工程架构(网关 + 缓存命中率 + 缓存感知路由)。把缓存命中率从 5% 拉到 60% 这一招,价值可能不亚于换模型本身,因为它直接决定了每次请求要为多少 token 付全价。这条也给所有想复制 Coinbase 路线的企业提了个醒:换开源默认模型是入场券,真正把成本压下来的是围绕它的整套 LLMOps 工程。同时『支出砍半但 token 用量仍涨』再次验证:低价不是用来省钱的,是用来买更多 agentic 调用的——这正是开源把 frontier 能力打到白菜价后,需求被进一步激发的样子。