产品上新

Cognition Devin Security Swarm:用 Agentic MapReduce 把 AI 安全扫描从 token 成本问题转成并行工程问题

Devin Security Swarm 把 MapReduce 的『并行-汇总』范式搬到 AI 安全扫描,把单 agent 的 token 成本问题转成可水平扩展的工程问题。

2026年7月2日 · 周四 深度报告 中置信 重要度 4/5

本文要点

  • 从『单 agent 顺序扫描』到『Map 阶段并行多 agent 扫描』:成本与代码量的关系从『线性』变为『亚线性 + 并行度天花板』
  • 从『MapReduce 处理数据分片』到『Agentic MapReduce 处理漏洞假设』:处理对象从『数据 key/value』换成『agent 提出的漏洞假设』,Reduce 阶段做『交叉验证 + 去重 + 聚类』而非『数据合并』
  • 从『Devin 通用软件工程 agent』到『Devin 垂直产品线』(Fusion + Swarm):Cognition 在 3 天内把『多 agent 范式』复制到两个垂直场景
  • 从『单 agent 准确性依赖模型本身』到『多 agent 共识依赖 Reduce 阶段验证』:与 OpenAI Deep Research、Anthropic Claude Science『reviewer agent 自校』是同一种范式
  • 从『AI 安全产品=聊天框提示』到『AI 安全产品=并行工程系统』:传统 AI 安全工具的核心是『在 IDE/聊天框中提示风险』,Swarm 把安全扫描从『交互式提示』推向『后台并行系统』

Cognition 在 7-02 推出 Devin Security Swarm,本质上是把 6-30 Devin Fusion 的多 agent 协作范式,搬到 AI 安全扫描这一垂直场景。Swarm 的核心架构叫 Agentic MapReduce——这个命名直接借鉴了 Google 2004 年 MapReduce 论文(Jeffrey Dean / Sanjay Ghemawat)的『分片并行 Map + 结果汇总 Reduce』思路,但处理对象从『数据 key/value』换成了『漏洞假设』。这是过去 24 小时所有 AI 产品发布里,范式标签最清晰的一个——Cognition 没有用『多 agent 协作』这种宽泛词,而是直接喊出『Agentic MapReduce』,等于把 AI 安全扫描的工程范式与 Google 分布式计算范式做了显式对位。

下面分三个层面拆解这次发布:先把 Swarm 放到 Cognition 的产品节奏里看清它不是『又一个 AI 安全产品』;再拆 Agentic MapReduce 的工程结构与经济性;再把 Swarm 放在『垂直 agent marketplace』的行业脉络里做横向定位;最后给出可验证的跟踪点。

不是『又一个 AI 安全产品』,而是『多 agent 范式』的可复制 vertical template

Cognition 在过去 3 天连发两条产品线,显示一个清晰的战略节奏:

时间产品范式官方量化锚点场景
6-30Devin Fusion多 agent 协作Frontier Performance at 35% Lower Cost通用软件工程
7-02Devin Security SwarmAgentic MapReduce官方表述『cheaper, more accurate』安全扫描

两份产品在『多 agent 』这个核心范式上高度相似——都是把任务切分到多个子 agent,各自独立处理后再汇总结果。Swarm 的特殊之处在于,它把这个范式细化到了 MapReduce 命名,显示 Cognition 在有意把『多 agent 』抽象成可复制的 vertical product template;Fusion 在 6-30 给出的『35% Lower Cost』官方量化锚点,为 Swarm 的『cheaper, more accurate』提供了同源旁证。

为什么 Cognition 选『安全』作为第二个垂直场景?因为 Devin 已有的『SWE-bench / 真实代码库理解』能力与安全扫描高度同源:都是对大型代码库做静态分析、识别潜在风险、给出可操作的修复建议。Nubank 案例原文显示,Devin 在大型代码库上已经能自主完成迁移、识别跨文件依赖(原文测得效率 8-12x、成本节省 20x,微调后单子任务执行时间从 ~40 min 降到 ~10 min)——这种对代码库的『深度阅读』能力,正是 AI 安全扫描在 OWASP A01-A10 各维度上需要的同一类技术底座。agent 厂商在选择垂直场景时,通常复用自身最强的能力,而不是从零开始——这一点 Anthropic 在选择 Claude Science 作为『科研垂直』时也是同样逻辑(长上下文 + 工具使用 + 多 agent 协作直接对应科研工作流)。

Agentic MapReduce 的工程结构与经济性

Cognition 官方对 Swarm 的描述,直接给出了 Map/Reduce 两阶段的具体机制:

  • Map 阶段:并行派多个 Devin 子 agent 同时扫描不同模块/文件树。每个子 agent 独立分析一块代码,产出一组『漏洞假设』(vulnerability hypothesis)——可能是 OWASP A01 访问控制缺陷、A03 注入类(SQL/命令/XSS)、A02 加密失效、A08 完整性失效等具体模式。
  • Reduce 阶段:汇总各子 agent 的发现,做三件事:① 交叉验证——同一个漏洞点是否被多个子 agent 同时识别;② 消除重复——多个子 agent 报出的相同漏洞去重;③ 聚类可疑路径——把相关的多个漏洞归类到同一个攻击链上。

这个工程结构的经济性,本质上是把『单 agent 的长上下文负担』转成『可水平扩展的并行任务』。在传统单 agent 扫描里,扫描整个 monorepo 需要把整个代码库塞进一个 agent 的上下文,代码量增长直接线性拉高单次扫描成本;在 Swarm 里,Map 阶段把任务切分到 N 个子 agent,每个子 agent 只处理一个子模块,成本与代码量的关系从『线性』变为『亚线性 + 并行度天花板』。这正是 MapReduce 范式在大数据处理上的经典经济性——Dean & Ghemawat 在 2004 论文里的设计就是让用户只声明 map/reduce 两个函数,把『单机瓶颈』转成『commodity 集群并行』,Agentic MapReduce 把同一思路搬到 AI 场景。

但 Swarm 的实际经济性,取决于几个 Cognition 暂未披露的关键数字:Map 阶段的并行度上限(子 agent 数量越多,边际成本越低,但 Reduce 阶段的合并成本会上升)、Reduce 阶段的去重算法与聚类阈值(决定能否真正消除重复并聚类攻击链,以及能否对齐 OWASP A01-A10 与 LLM Top 10 的分类体系)、单子 agent 的 token 消耗(决定 Map 阶段的单次成本)。这三个数字决定 Swarm 是否真能兑现『cheaper, more accurate』的承诺——若 Map 阶段子 agent 数量过少,无法形成显著并行收益;若子 agent 数量过多,Reduce 阶段合并成本反而会上升。

传统 SAST/单 agent/Swarm 三种扫描模式的经济性对比

维度传统 SAST(Snyk / Veracode)单 Devin agentDevin Security Swarm
计费模型按代码量线性计费按 token 消耗计费,长上下文负担按并行子 agent 数 + token 计费
成本/代码量关系线性线性亚线性 + 并行度天花板
准确率来源规则库 + 历史 pattern matching单模型推理单 agent 推理 + 多 agent Reduce 共识
复杂 monorepo(>100 万行)单次扫描成本高,误报率累积上下文溢出风险,token 爆炸任务切分,Map 阶段并行,Reduce 汇总
漏洞假设输出规则命中列表自由推理结果Map 假设 + Reduce 聚类后的攻击链
行业基准对齐OWASP Top 10(行业标准)取决于 prompt/agent 设计OWASP Top 10 + 内部聚类(若公开白皮书)

这张对比表的关键不是『Swarm 全方位领先』,而是『Swarm 的成本曲线被从『线性』扭成『亚线性 + 并行度天花板』』——这是传统 SAST 与单 agent 扫描都无法做到的。Snyk / Veracode 等传统厂商按代码量计费,代码量增长直接线性拉高单次扫描成本;单 Devin agent 同样受上下文限制,长上下文推理的 token 成本随代码量爆炸性增长。Swarm 的并行 Map 是头一次让 AI 安全扫描的成本不再被『单 agent / 单进程的 token / 代码量』线性绑死。

放到行业脉络里:agent 厂商从『通用软件工程』走向『垂直 marketplace』

把 Swarm 放到 7 月初的行业脉络里,可以看到一个清晰的范式切换:agent 厂商的竞争重心,正从『通用软件工程』走向『垂直 agent marketplace』。

厂商通用产品垂直产品(7 月初)范式选择客户矩阵信号
AnthropicClaude Code / Sonnet 5Claude Science(科研)垂直工作台订阅(尚未公开企业客户)
CognitionDevin / Devin FusionDevin Security Swarm(安全)垂直 agent marketplaceGoldman Sachs / Nubank / Anduril / Athena Health / Mercedes-Benz(Cognition 主页客户列表原文)
OpenAICodex / AgentKit(尚未明确垂直)(观望中)(尚未公开)
NousHermes Agent(中立平台,非垂直)开放权重 + 自托管(社区为主)

Anthropic 与 Cognition 在路径上不同:Anthropic 走『垂直工作台订阅』——把多 agent + 数据连接 + 算力调度打包成订阅制工作台(Claude Science),通过『基座 + 场景化工作台』做二次商业化;Cognition 走『垂直 agent marketplace』——把多 agent 范式复制到不同垂直场景做成独立 Swarm 产品,通过『范式可复制 + 垂直深耕』做平台化扩张。Cognition 已经在企业级拿下金融(Nubank / Ramp / Itaú / Goldman Sachs)、汽车(Mercedes-Benz)、医疗(Athena Health)、国防(Anduril)等横切行业——这条客户矩阵是 Swarm 在 2026 H2 直接复用销售渠道的关键底座。

两条路径的共同点是:都把『多 agent 协作』当成核心范式;差异点是商业化形态——Anthropic 倾向订阅 + 生态绑定,Cognition 倾向 product template + 客户自助。无论哪条路径走通,都会对传统 SaaS 厂商形成结构性冲击:

  • 传统 SAST 厂商(Snyk / Veracode / Checkmarx):面对的是『AI agent 并行扫描』的范式冲击。单次扫描成本下降 50% 以上,将直接挤压传统 SAST 的代码量计费模型;预计 30-60 天内这些厂商会推出回应方案——要么自家 agent 产品,要么『AI 扫描 + 人工 review』混合模式。
  • 传统 IT 服务厂商(埃森哲 / IBM Consulting):面对的是『AI agent marketplace』的人力替代冲击。Swarm 把一个安全扫描团队从『数名分析师 + 数周时间』压缩到『后台多 agent + 数小时』,咨询行业的『人力密集型安全服务』模式将受根本性挑战。
  • 企业内部安全团队:面对的是『从手动工具切换到 agent 系统』的运维模式变化。Swarm 输出的不是『单条漏洞告警』,而是『聚类后的攻击链 + 修复优先级』,这需要企业内部安全流程的相应调整。

接下来看什么:可验证的跟踪点

Swarm 的范式价值是否真能兑现,需要 6-12 个月的实证数据。以下几个跟踪点,是判断 Swarm 是否能站住脚的关键:

短期(30 天内):

  1. 第三方基准复现:OWASP Top 10 / CVE 实测数据集上的召回率、误报率、扫描时间——Cognition 官方仅称『cheaper, more accurate』,缺乏独立数据。
  2. Map/Reduce 阶段工程细节:Cognition 是否会公开并行度上限、去重算法、聚类阈值、是否对齐 OWASP A01-A10 与 LLM Top 10;这决定第三方复现的可行性。
  3. 第三个 Swarm 产品:30 天内若 Cognition 推出 Devin Data Swarm / SRE Swarm / Finance Swarm 等第三个 Swarm 产品,『vertical template 可复制』的叙事会站住脚;若没有,范式可复制性受质疑。

中期(60-90 天):

  1. 传统 SAST 厂商回应:Snyk / Veracode / Checkmarx 如何应对 agent 化冲击——是推出自家 agent、转向混合模式,还是直接接入 Cognition API。
  2. 付费客户案例:Cognition 主页公开的 Goldman Sachs / Nubank / Anduril / Athena Health / Mercedes-Benz 等客户中,谁第一个把 Swarm 纳入采购——以及单次扫描成本对比传统 SAST 工具的具体数字。
  3. Agentic MapReduce 是否成为新 SAST 默认架构:是 Agentic MapReduce 胜出,还是 hierarchical agent / debate-based verification 等其他架构取代它。

长期(6-12 个月):

  1. 『垂直 agent marketplace』是否成为 agent 厂商的标准商业模式:若 Cognition / Anthropic 在垂直化路径上持续跑通,意味着 agent 厂商的产品节奏从『单点功能』切换到『可复制的 vertical template』——这是 agent 行业走向成熟的标志。
  2. 企业内部安全团队对 Swarm 的运维适配:Swarm 输出的是『聚类后的攻击链 + 修复优先级』,企业内部流程的调整成本是采纳速度的关键变量。

早报观点

Cognition 在 7-02 把 Devin Security Swarm 推到 AI 安全扫描场景,这件事的真正信号不是『又一款 AI 安全工具』,而是 agent 厂商的范式竞争从『多 agent 协作』走向『多 agent 范式可复制性』的临界点

三周前(6-30)Devin Fusion 推出时,Cognition 已经在 Cognition 公司主页博客列表里把 Fusion 的官方定位写成『Frontier Performance at 35% Lower Cost』,等于同时给出范式(多 agent 协作)+ 可量化的经济性锚点(35% Lower Cost);三周后 Swarm 直接用『Agentic MapReduce』命名,等于 Cognition 在告诉市场:多 agent 不是一个功能,而是一个可复制的 vertical product template。这种『把范式做成可复制产品』的节奏,才是 Cognition 真正的护城河——Anthropic 同期在科研垂直做 Claude Science,但路径是『垂直工作台订阅』而非『vertical product template』;Cognition 走的是更接近 SaaS 厂商的『多产品线 + 平台化』路径,而且已经有了 Goldman Sachs / Nubank / Anduril / Athena Health / Mercedes-Benz 这种横切行业的客户矩阵做销售渠道。

但 Swarm 的范式价值能否兑现,仍取决于三个未公开的工程数字:Map 阶段并行度上限Reduce 阶段去重算法与聚类阈值单子 agent token 消耗。这三个数字决定 Swarm 的实际经济性,也决定第三方复现的可行性。Cognition 若能在 30 天内公开技术白皮书 + 第三方基准数据,『vertical agent marketplace』叙事会站住脚;若 30 天后仍是营销话术,范式可复制性会受质疑。

更大的行业意义是:AI 安全扫描首次出现『成本结构重构』的临界点。传统 SAST 与单 agent 扫描都受限于『单进程/单 agent 处理整个代码库』,代码量增长直接线性拉高单次扫描成本;Swarm 把任务切分到 N 个子 agent,成本与代码量的关系从『线性』变为『亚线性 + 并行度天花板』——这正是 MapReduce 范式在大数据处理上的经典经济性(Dean & Ghemawat 用 commodity 集群替代专有机器,Agentic MapReduce 用 commodity 智能体池替代单 agent)。传统 SAST 厂商若不在 6 个月内推出 agent 化方案,将面临『单位代码量扫描成本』被 Swarm 拉开数量级差距的结构性冲击。这把 2026 H2 的 AI 安全扫描赛道从『工具优化』推向『范式重构』,而 Cognition 已经用 Swarm 抢下了范式定义的第一个身位。