头条

Cognition 发布 Devin Fusion:混合模型 harness,把『Fable 级智能』的成本压低 35%,把『能跑 benchmark』与『能写生产代码』两条曲线明确分开

Devin Fusion:混合模型 harness,Fable 级智能成本-35%,把『能跑 benchmark』与『能写生产代码』两条曲线明确分开。

2026年6月30日 · 周二 深度报告 中置信 重要度 5/5
本文要点
  • 从『单一模型 agent』到『混合模型 harness』:Devin Fusion 把多个模型按任务类型组合,意味着 Cognition 不再把赌注压在单一模型上,而是把工程优势放到 harness 设计
  • 从『benchmark 与生产代码混为一谈』到『明确分开』:Cognition 直接表述『传统 routing 能过 benchmark 却写不出能合并的代码』,把两条曲线的差异显式化
  • 从『routing 优化成本』到『harness 优化成本-质量 trade-off』:传统 routing 主要按难度分发,Fusion 是按任务的『成本-质量』曲线动态优化,工程颗粒度更细
  • 从『agent 工具公司』到『harness 平台公司』的潜在演化:Cognition 自身定位可能从单一 Devin agent 转向更上层的多模型编排平台
  • 从『模型 API 价格作为主要变量』到『harness 工程能力作为主要变量』:同价位模型下,harness 设计能力将成为 agent 产品的核心差异化

2026 年 6 月 29 日,Cognition AI 在官方 X 账号推出一条看似简短、实则信号密度极高的产品发布:Devin Fusion——一种新型混合模型 harness,专门解决『传统 routing 能过 benchmark 却写不出能合并的代码』的痛点。Cognition 在推文中直接给出结果数据:在内部测试中,Devin Fusion 把达到 Fable 级智能的成本压低了约 35%,且代码质量仍是『你想 merge 的那种』

这条推文之所以重要,不是因为它又一个新模型发布——而是因为它把 agent 工程化中『benchmark 与生产之间的距离』这一核心问题,放到了产品命名的高度。Devin Fusion 的命名本身就是一个判断:行业竞争的下一步,不在模型层,而在 harness 层。也因为推文发布当天,Claude Code 作者 Boris Cherny 与 Spotify 工程 VP Niklas Gustavsson 在 Anthropic 官方 X(ClaudeDevs)同步做了一场对谈,披露一组 Spotify 内部数字——每天约 4500 次生产部署、约 73% 的 PR 涉及 AI 辅助、judge 评审模型把迁移场景 PR 通过率从约 25% 拉到约 80%。两条线索在 2026-06-29 同一日叠加,讲的是同一个工程问题——模型本身不是瓶颈,瓶颈在模型之外的架构层。下面按话题本身的逻辑重新组织:上段拆『harness vs routing』的工程语义辩论,把 Spotify 的 judge 模型路径与 Devin Fusion 正面并列;下段专章拆开 -35% 这个数字的口径与可复现性。

『harness vs routing』:一次产品命名里的工程语义辩论

Devin Fusion 在推文里的核心表述不是 -35%,而是 『hybrid model harness』(混合模型框架)这个命名。Cognition 特地把它叫作 harness 而不是 routing,这背后是一次公开的工程语义表态——它要把自己从过去两年泛滥的『模型路由』概念里拆出来

把这件事讲清楚,要先把『routing』与『harness』两种思路摆在一起。过去的两年里,行业默认的『省钱办法』是 routing:用一个网关分析请求难度,简单的给小模型、复杂的给大模型。这种思路把『贵模型』的稀缺算力集中到最有价值的地方,工程上非常清晰——OpenRouter、Portkey、LangChain、LlamaIndex、各家大模型自带的 agent 框架,或多或少都有这条路线的影子。Spotify 这次对谈里同样思路的另一面也出现了——他们用 judge 评审模型对候选 diff 二次打分后再决定是否合并,把迁移场景 PR 通过率从约 25% 拉到约 80%。judge 也是 routing 思路的延伸:不只决定『该不该让 LLM 写』,还要让 LLM 评。

而 Cognition 这次选择叫 Devin Fusion 是 harness,不是 routing,差别在三个层次的信息:

  • 颗粒度更粗——harness 不是对单个请求做难度分发,而是对整个 agent 工作流做编排:Cognition 把『不同子任务用不同模型』的决策逻辑提到了产品命名的高度,等于公开承认『路由已经不够了,得有更上层的架构层』;
  • 决策维度更立体——传统 routing 主要按『难度』一维分发;harness 至少要在『难度 × 任务类型 × 质量门槛 × 成本约束』四个维度上做联立优化。用 Devin 自己的语言讲就是:不是按难度把请求塞进不同模型,而是按任务的『成本-质量』曲线动态选模型;
  • 核心难点不在选模型,在控制逻辑——routing 是一组规则,规则写完就定型;harness 若名副其实,意味着任务切分规则与质量门是会随反馈调整、『学』出来的策略。这一层差别决定了它的技术分量,也抬高了验证难度:一个自适应系统到底学到了什么,只有放进足够多样的真实任务里跑一段时间才看得出。

把这条主线拉直了看:Devin Fusion(系统层的 harness)与 Spotify 的 judge 评审模型(工作流层的二次评审)是同一思路在两个不同层级的体现——一个在 agent 框架层做多模型协同,一个在合并决策层做二次评审。它们都在回答同一个问题:模型能力天花板已经够高,真正的工程差距在模型之外。这条判断如果成立,2026 年下半年关于 agent 工程的争论,会从『哪个模型更强』的理论层面,快速收敛到『哪家的 harness / verification 设计更扎实』的工程实操层面——这也是为什么 Boris Cherny 在同日对谈里抛出的『约 90% 公司最大失误就是不引入 verification loops』强观点,和 Cognition 在 Devin Fusion 命名上的选择,会形成这种近乎背靠背的呼应。

Cognition 在推文里还直接对传统 routing 抛了一句反例——『传统 routing 能过 benchmark,却写不出能合并的代码』。这句话把过去两年业界一个隐含的假设公开挑明了:之前普遍认为『benchmark 通过率高的模型,生产代码质量也应该高』;Spotify 与 Cognition 的实践共同打破了这个假设——benchmark 与生产是两条不重合的曲线。在 Spotify 这一侧,『73% PR 涉及 AI、judge 模型把迁移通过率从 25% 拉到 80%』是同一个判断的工业级数据支撑;在 Cognition 这一侧,『routing 把 benchmark 刷上去了但合并不下来』是同一个判断的命名级表态。两家公司从不同方向给出的是同一份诊断:benchmark 表现与生产代码质量,跑的是两条曲线

-35%:拆开一个未披露对照基线的成本数字

把视线从命名辩论转回数字本身。Devin Fusion 在同一篇推文里给的硬数据只有两组——达到 Fable 级智能的成本下降约 35%;代码质量仍是能 merge 的那种。这两组数据并列出现,等于 Cognition 在公开承认:成本优化不能以牺牲质量为代价,质量门槛(可合并到主干的代码)是硬约束,不是软目标——这与 Spotify judge 模型『不只让 LLM 写,还要让 LLM 评』的思路在哲学层高度同构。

但 -35% 这个数字,单独看很难读出工程意义。

-35% 的四个未披露口径

对照基线没披露。Cognition 在推文里只说『达到 Fable 级智能的成本』,没说对照基线到底是哪种基线。至少有三种合理读法,每种对应 -35% 完全不同的工程含义:

对照基线读法含义-35% 在这种读法下的工程意义
全用 Fable 5把全部任务都丢给 Fable 5,Fusion 把多数子任务换成便宜模型、只在关键决策上调用 Fable 5等价于『相同智能下,把单一贵模型的算力切给一组更便宜的组合』,是一个干净的『大模型降本』故事
传统 routing 方案Fuse 对标行业 routing 网关(Portkey / OpenRouter / 各家内置路由)等价于『harness 比 routing 进一步降本 -35%』,这是 Cognition 真正想立的产品差异化
单模型 agent(自家 Devin)把 Devin 自己的单一模型 agent 当基线等价于『从单模型到多模型 harness 节省了 35%』,讲的是架构升级的成本红利

三种读法都站得住,而 Cogniton 没选一种公开。这决定了外界能不能横向比较这个数字。三种基线对一个企业买方意味着三种完全不同的采购决策:它要不要把已经买好的 Fable 5 接口替换?它要不要把已经接好的 Portkey 替换?它要不要把已经在用的 Devin 替换?

任务分布没披露。-35% 不是 Fusion 的『出厂折扣』,而是它在 Cognition 自家测试场景下的平均表现。一旦真实任务分布变化——比如从代码迁移换成架构设计、从 CRUD 换成底层基础设施——数字会不会守得住?这是个开放问题。Cogniton 给的是单点比例,不是回归曲线。

成本口径没拆开API token 价、推理时延、缓存命中率、judge 模型二次评审开销这四项,任意一项的口径变化都可能把 -35% 推开一个量级。Spotify 在同日的披露中提了一个值得注意的旁证:judge 模型本身要算钱,每个候选 diff 都过一遍二次评审,意味着为最终 80% 通过率额外付出了一倍量级的推理调用;在 4500/天部署规模下,这笔验证开销占总成本多少、是否划算,Spotify 没直接给答案。Cognition 的 Fusion 数字,显然没把这一类二次评审开销的会计方式公开——而这类细节恰恰是别家照搬前必须先算清的。

测试方法与外部审计都没披露。整篇推文没提测试集来源(自家私有问题集还是公开 SWE-bench 子集)、没提样本量、没提第三方复现路径。-35% 是 Cognition 自报数据,无第三方独立审计——这件事在认知质检里必须显式标注。

-35% 该怎么读

把上面四条放回去读,-35% 的合理读法是:它是一个方向性信号,不是一个可比数字。它告诉读者『Fable 级智能可以在 harness 层做到更便宜』这件事大概率成立;但它没告诉读者『省掉的这 35% 到底是什么省法、在你自己的任务分布下还能不能省出来』。要把这个数字变成可对照的产品级论据,需要的是 Cognition 在接下来的技术博客里给出——基座模型组合清单、任务切分规则、质量控制机制(是否内嵌 judge 模型二次评审)、对照基线的具体口径。任何一个不披露,-35% 对企业买方的参考价值都不完整。

横向对照来看,Spotify 在同日的披露提供了另一种解题思路:他们没给绝对成本数字,而是给了一个相对指标——judge 评审把 PR 通过率从 25% 拉到 80%。这是把『质量门槛』变成可量化的合并决策机制,比单一成本数字更能横向比较,也比单一 benchmark 通过率更难被刷榜。Cognition 的 -35% 与 Spotify 的 25%→80%,是两个公司对『怎么让 harness / verification 产生可衡量价值』这个问题的两种答案:一个押在成本曲线,一个押在质量曲线——都对,也都没披露完整配方。

早报观点

把一个内部 harness 命名成产品、再配一句”传统 routing 能过 benchmark 却写不出能合并的代码”,Cognition 想立的其实是一个判断:刷榜能力和进主干能力是两条不同的曲线,而它把工程压在后者上。这个判断本身比 -35% 更有分量——一旦行业接受,模型厂商迟早要面对”benchmark 模型”与”生产模型”分线的压力。同日 Spotify 的 73% / judge 25%→80% 是同一判断在工业级数据上的对应物:两家公司从不同方向给出的是同一份诊断。

但这一份诊断目前只立了一半。另一半是 -35% 与 25%→80% 这两组数字的对照基线都还没披露——Cognition 不说对照基线是全 Fable 5、传统 routing 还是单模型 agent,Spotify 不说 judge 模型的基座与 prompt 设计。不披露对照基线,『-35% / 25%→80%』对外只是两组自报数字,而不是可复现的配方;Spotify 的工程纪律再清晰,外界照搬后能不能复现同样数字是另一个独立问题。这也是为什么『harness + verification』目前在公开层面还停留在范式口号阶段,而非范式成熟阶段。

最该追问的是 harness 的运维成熟度,而这恰恰是 Cognition 一个字没提的部分:可学习性、可调试性、可观测性,以及在多团队、复杂依赖的真实代码库里能不能稳定跑——demo 漂亮和工业级可控之间隔着的就是这些。Spotify 这次没展开的另一些留白(剩下 20% 未过 PR 是什么类型、跨 worktree 冲突怎么裁、judge 模型本身的成本占比)也是同一种工程缝隙。一个对的诊断,加一组待审计的数字,加一段没披露的工程细节,是 Devin Fusion 目前的全部成色;Spotify 那组数字同样成立,但『能不能复现』的边界同样没拆干净。2026 H2 的 agent 工程竞争,真正的胜负手不在『谁先喊出 harness』,而在『谁先把对照基线和运维指标公开』。

接下来看什么

  • Devin Fusion 的技术博客披露:Cognition 是否会发布 Devin Fusion 的工程细节——基座模型组合、任务切分逻辑、质量控制机制(是否内嵌 judge 模型二次评审)、学习与自适应机制——这决定了 Devin Fusion 是 Cognition 独家工程经验还是行业可复现范式。对照基线必须公开,否则 -35% 永远只是自报数字。
  • -35% 成本的口径分项:Cognition 是否会披露 token 价 / 推理时延 / 缓存命中率 / judge 评审开销的具体分项?这决定了 -35% 在不同客户任务分布下的可推广性。与 Spotify judge 模型 80% 通过率的成本占比横向对比,是验证『harness 路线是否真正降本』的关键。
  • Devin Fusion 与 Spotify judge 模型的复合可行性:benchmark 与生产代码之间的距离,是否可被『Fusion + judge』复合范式进一步压缩?两种思路是否能融合成一个新的『harness + judge』组合产品?这决定了 2026 H2 头部 agent 厂商的产品同向演化。
  • Devin Fusion 在企业客户中的渗透率:Cognition 既有 Devin 客户是否被 Fusion 替换、新客户的获取速率、与 Stripe / Shopify / Cloudflare 等企业级 agent 平台的合作可能性。对照基线公开后的 6 个月窗口,是渗透率是否真正起量的关键观察期。
  • Cognition 自身定位演化:从『单一 Devin agent』到『harness 平台』的潜在演化路径,与 LangChain / LlamaIndex / Portkey 等 LLM 网关厂商的竞争位置——harness 这一层的护城河究竟来自任务纵深(软件工程领域)还是通用网关能力,是接下来半年的关键分化点。
  • 第三方独立审计:是否有第三方机构或企业客户对 -35% 成本数据做独立复现与审计?这决定了 Devin Fusion 的对外宣传数字的可信度,也会反过来推动 Spotify 那组数字的口径公开。
  • 客观指标统一:Cognition 与 Spotify 是否会共同推动行业在『能写生产代码』维度建立统一基准(类似 SWE-bench 的工业版)?这决定了 agent 行业的产品可衡量性,也决定了『harness 范式』能否从口号收敛到度量衡。