最新一期 第 11 期 · 共 13 条信号
2026年7月2日
周四 · 过去 24 小时的 AI 世界

从「前沿模型之争」切换到「治理与工作流自动化」:Anthropic Fable 5 全球回归 + 行业首个 jailbreak 4 维框架,Claude Code background agents 端到端开 PR

过去 24 小时,AI 圈的叙事主线从「谁发了更强的模型」切换到「谁把 agent 工作流的最后一公里做掉了」。Anthropic 7-1 宣布 Fable 5 全球恢复访问,联合 Amazon/Microsoft/Google 等 Project Glasswing 伙伴起草 jailbreak 严重性评估与响应共识框架(4 维度:能力增益/增益广度/武器化难度/可发现性),配套新 safety classifier(拦截率 >99%)、HackerOne 漏洞悬赏、24/7 监控与更深的美政府合作——这是 6-12 出口管制事件后第一次系统性的 industry-wide 治理响应。Claude Code 2.1.198 同步发布,Claude in Chrome 正式 GA、background agents 在 worktree 完成后自动 commit/push 并开 draft PR,端到端交付自动化;Cognition 发布 Devin Security Swarm,以 Agentic MapReduce 架构把 AI 安全扫描做成并行任务;智谱 GLM-5.2 官方 IDE ZCode 上线(HN 266 分),GLM Coding Plan 订阅者额度 1.5x 并支持 BYOK;Nous Hermes Agent v0.18.0「The Judgement Release」同日发布,/usage 命令用量透明化。

本期判断

今天 AI 圈的故事主线从「谁发了更强的模型」切换到「谁把 agent 工作流的最后一公里做掉了」。Anthropic 用 Fable 5 回归 + jailbreak 4 维框架 + HackerOne + 24/7 监控四件套,把 AI 治理从单家防御推向行业协作标准——这是 6-12 出口管制事件后第一次系统性的 industry-wide 治理响应;Claude Code 2.1.198 把 background agents 推到 PR 自动开立,是 agent 工具从副驾驶到独立交付的临界点;Cognition Devin Security Swarm 用 Agentic MapReduce 把 AI 安全扫描的 token 成本问题转成并行工程问题;智谱 ZCode 把 GLM-5.2 包装成 IDE + 订阅 + BYOK 三件套,是开源中国模型厂商第一次向开发者订阅生态迁移。模型层的同质化竞争已让位,治理 / 工作流 / 订阅生态三条战线同日开打。

5深度报告
9快讯新闻
13推特讨论

本期导航

Deep Dives

本期重点 · 深度报告

5 篇深度调研,点进去看完整分析与多源交叉验证

Key Numbers
2026-07-01 Fable 5 全球恢复上线时间 Anthropic 官方,7-1 起全球可用;7-7 前含 50% 周限额免费额度,之后按 usage credits 计费
>99% 新 safety classifier 拦截率 Anthropic 官方,对 Amazon 研究者 bypass 路径拦截率 >99%;CAISI 测试认可新 safeguard 极强;代价是常规编码/调试任务回退 Opus 4.8
4 维度 jailbreak 严重性框架维度数 能力增益/增益广度/武器化难度/可发现性;Project Glasswing 伙伴联合起草
32 项 Claude Code 2.1.198 CLI 变更数 ClaudeCodeLog 整理的完整 changelog 摘要
266 分 / 81 分双帖 ZCode HN 热度 HN 266 分(12 评论)+ 81 分(169 评论);HN 双帖均围绕 GLM-5.2 harness 与 Claude Code 类比
1.5x GLM Coding Plan 订阅者额度加成 ZCode 内 GLM 编程计划订阅者使用额度直接翻 1.5 倍;BYOK 机制支持配置现有 API key 或关联第三方订阅
Briefs

快讯 · 看标题就懂

9 条次要信号,附早报判断与原始链接

产品上新 重要度 4/5 中置信 官方源

Cognition Devin Security Swarm:Agentic MapReduce 架构把 AI 安全扫描做成并行任务,成本更低、准确度更高

Cognition 发布 Devin Security Swarm——在复杂代码库中查找安全漏洞的更便宜、更准确的新方案,基于全新架构 Agentic MapReduce。Map 阶段:并行派出多个 Devin 子 agent 同时扫描不同模块/文件树;Reduce 阶段:汇总各子 agent 的发现,交叉验证、消除重复、聚类可疑路径。相比传统单 agent 顺序扫描,Agentic MapReduce 把扫描时间与 token 成本并行化,定位漏洞更便宜、更准确。这是 Devin 从通用软件工程 agent 向「AI 做安全」垂直延伸的标志——继 6-30 Devin Fusion(多 agent 协作通用软件工程)之后,Cognition 把多 agent 范式推到安全扫描场景。

Why

Agentic MapReduce 是 AI 安全扫描的成本/准确度问题被并行化解决的新架构,是继 Devin Fusion 之后 Cognition 把多 agent 范式推到垂直场景的标志性产品。

Impact

AI 安全厂商:Snyk / Veracode / Checkmarx 等传统 SAST 需要回应『AI agent 并行扫描』的成本曲线冲击;企业买方:大代码库的安全扫描从「按代码量计费」转向「按并行 agent 数计费」;Cognition:Devin 系列产品向垂直 marketplace 延伸(安全/数据/SRE)的产品节奏;MapReduce 概念:AI 原生范式对经典分布式计算的重新定义,可能成为后续 AI 安全研究的标准模板。

Numbers

Agentic MapReduce Devin Security Swarm 架构

早报判断

Devin Security Swarm 真正的价值不在「又一款 AI 安全工具」,而在 Agentic MapReduce 把 AI 安全扫描从「单 agent token 成本问题」转成「并行扫描的工程问题」——这是 OpenAI Deep Research、Devin Fusion、AgentKit 等『harness 化』范式在垂直场景的又一次落地。多 agent 并行扫描与 Reduce 汇总的思路与 Google MapReduce 同构,但 Agentic MapReduce 处理的对象是『漏洞假设』而非『数据分片』,这是 AI 原生范式对经典分布式计算的重新定义。Cognition 把 Devin 往「AI 做安全」垂直延伸,意味着 agent 厂商正在从『通用软件工程』走向『垂直 agent marketplace』(安全/数据/SRE/财务),与 Anthropic Claude Science 的『科研垂直』对位。

接下来看:Devin Security Swarm 在 OWASP Top 10 / CVE 实测数据集上的基准复现数据(独立第三方) / 单 Devin agent 与 Swarm 的 token 成本对比与扫描时间对比

观点观察 重要度 3/5 中置信 已核验

Sonnet 5 / Claude 生态 7-02 增量:LMArena 首测视频 + Fable 5 配额配比策略(7-01 已 deep,本期增量)

7-02 关于 Sonnet 5 / Claude 生态的增量信息:(1) LMArena 与 Peter Gostev 合作发布 Sonnet 5 在 Agent Arena 上的首测上手视频(YouTube),具体评分稍后公布,补齐 Sonnet 5 的第三方独立测评;(2) surim0n(@surim0n)系统分享 Fable 5 配额稀缺下的实战配比策略——只投在不可逆决策(数据模型/API 契约/核心抽象)、用 GPT-5.5 做上下文压缩、Fable 写架构/PRD、Codex 实现、Fable 产出『治理廉价舰队』的工件(评测套件、rubric、system prompt),一次 frontier 会话塑造数千次下游调用,均摊近零;Opus 4.8 使用也要降下来。7-01 早报已 deep 写过 Sonnet 5 全量深度页,本期只做增量追踪。

Why

Sonnet 5 / Claude 生态 7-02 增量信息(LMArena 首测视频 + Fable 5 配额配比策略)对 7-01 已 deep 过的 Sonnet 5 报告是有效补齐;surim0n 的『配额治理』策略揭示 multi-tier model workflow 的实战范式。

Impact

企业买方:Fable 5 配额稀缺下的实战配比(不可逆决策用 Fable / 上下文压缩用 GPT-5.5 / 实现用 Codex)成为 multi-tier 部署的标配;OpenRouter / Fireworks:模型分层(frontier / mid / open)的计费模型需要回应多 tier 部署需求;Anthropic:Sonnet 5 + Fable 5 + Opus 4.8 三档定价需要观察企业实际使用比例。

Numbers

50% Fable 5 7-7 前周限额免费额度

早报判断

surim0n 给出的『Fable 5 配额配比策略』揭示了一个被忽视的事实:Fable 5 的 50% 周限额(7-7 前)在实战中必须做严格的『配额治理』——把 Fable 投在不可逆决策、用 GPT-5.5 做上下文蒸馏、Fable 产出可复用的评测套件/rubric/system prompt 一次 frontier 会话塑造数千次下游调用。这与 Claude Science 的『reviewer agent 自校』思路同构——前沿模型的真正价值不是『多写几段代码』,而是『产出一份可以被中端模型复用的工件』,这是 multi-tier model workflow 的真正落地。LMArena 首测视频则补齐 Sonnet 5 第三方独立测评的最后一块,值得观察 Peter Gostev 的具体评分。

接下来看:Peter Gostev 在 LMArena 首测视频中给出的 Sonnet 5 具体评分与排名 / surim0n 的『Fable 5 配额治理』策略是否被其他 KOL 跟进(形成 community playbook)

研究论文 重要度 3/5 中置信 已核验

Orca 开源 computer use:HF 论文 176 分,基本复刻 Codex app 全部功能,只剩 record & replay 未开源

HF 论文《Orca: The World is in Your Mind》(arXiv 2606.30534,HF 176 分,本日 HF 候选最高)开源了 computer use 能力,基本复刻 Codex app 全部功能。@LinearUncle 实测:Orca 开源的 computer use 跟 Codex app 一样好用,到目前为止 Codex app 的功能几乎都能在开源里找到替代——唯一还没看到对手的只剩 record & replay(录制回放)。这意味着开发者不再需要 Codex 订阅即可获得『computer use』能力,OpenAI 在 computer use 上的产品护城河进一步收窄。

Why

Orca 是 HF 当日分数最高的开源 computer use 论文,基本复刻 Codex app 全部功能,意味着 OpenAI 在 computer use 上的产品护城河收窄;record & replay 是 OpenAI 仅剩的产品差异。

Impact

OpenAI:Codex app 的 computer use 产品护城河被开源阵营收窄,需回应『record & replay』的差异化;开源 agent 生态:Orca + OpenCUA + OSWorld 形成开源 computer use 标准;企业买方:computer use 能力部署成本下降,无需 Codex 订阅;browser-use / Playwright:computer use 工具链生态进一步分化。

Numbers

176 分 Orca HF 分数

几乎全部(仅 record & replay 未开源) Codex app 复刻完整度

早报判断

Orca 开源 computer use 真正改变的是『computer use』从 OpenAI 产品护城河转向社区基础设施——这是继 OSWorld / OpenCUA 之后第三个重要的开源 computer use 框架。HF 176 分(本日候选最高)反映社区对『脱离 OpenAI 订阅的 computer use 能力』的强需求。唯一还剩 record & replay(录制回放)未开源,意味着 OpenAI 在『工作流录制 + 回放』上的产品差异还在,但这个差距可能在 1-2 个月内被追上。整体上,Orca 与开源 computer use 阵营的成熟,意味着『computer use』正在从『前沿产品功能』变成『agent harness 标配』。

接下来看:Orca 在 SWE-bench / OSWorld / WebArena 等第三方基准的具体表现 / 开源 community 何时补齐 record & replay 能力(预计 1-2 个月)

行业动态 重要度 3/5 中置信 已核验

OKX AI Agent Marketplace 实测:Codex 跑通 onchainos + okx-a2a 注册 ASP,链上 A2A 雇佣 + 收款成真

OKX 推出 AI Agent Marketplace,基于 A2A(Agent to Agent)协议实现 agent 发现工作、互相雇佣、完成任务、链上收款。@blmario669 实测:把 OKX 介绍推文丢给 Codex,Codex 一路跑通了安装 onchainos / okx-a2a、登录钱包、注册 ASP(Agent Service Provider)、提交审核(中间授权两次)。底层是 A2A,人只需授权;市场任务很多,等审核通过让 agent 自动找任务、沟通、接单、交付。这是继 theeleven(GitHub 691★,11 个 AI 智能体开足球盘)之后第二个链上 AI agent 经济的实测案例。

Why

OKX AI Agent Marketplace 是 A2A 协议成为链上 agent 经济标准的标志性产品,@blmario669 实测显示 Codex 已可跑通完整注册流程。

Impact

crypto / DeFi:A2A 协议成为链上 agent 经济标准,新的 marketplace 形态可能挑战传统 freelancer marketplace;OpenAI Codex:被验证可用于链上 agent 注册流程,Codex 在 crypto 场景的可用性提升;AI agent 经济:从『meme 概念』走向『可工作的产品』,ASP 注册 + 任务赏金 + 链上收款的闭环验证。

Numbers

安装 onchainos / okx-a2a、登录钱包、注册 ASP、提交审核 Codex 跑通注册步骤

早报判断

OKX AI Agent Marketplace 真正改变的不是『agent 接单』,而是 A2A(Agent to Agent)协议成为链上 agent 经济的标准——agent 之间可以互相雇佣、链上结算,人类只需授权。结合 theeleven(11 个 AI 智能体开足球盘)和 OKX Marketplace,2026 H2 正在形成『链上 agent 经济』的完整雏形:agent 是经济主体,人是授权方,A2A 是协议层,链上是结算层。这是 crypto + AI agent 范式从『meme 概念』走向『可工作的产品』的关键节点。但 ASP 审核的实际通过率与 agent 自动接单的成功率仍是观察重点。

接下来看:ASP 审核通过的实际通过率与 agent 自动接单的成功率 / OKX AI Agent Marketplace 实际任务成交额与赏金规模

产品上新 重要度 2/5 高置信 官方源

Firecrawl /monitor 升级到 web-scale:从单页/单站监控跃升为全网监测,新内容上线即向 agent 发通知

Firecrawl 发布 web-scale 版 /monitor:常驻搜索,监测整个网络,新内容一上线即向你或你的 agent 发通知。此前 /monitor 只能监控单页或单个网站,现可作用于全网。当日上线。这意味着 agent 可以订阅『全网新内容』而不再是『单站新内容』,agent 的信息获取半径从 RSS / 站点级跃升到 web-scale。

Why

Firecrawl /monitor web-scale 是 agent 感知层基础设施的标志性升级,把 agent 的信息获取半径从『单站 RSS』跃升到『全网监测』。

Impact

agent 开发者:web-scale 监测能力补齐 agent 的感知层,可订阅全网新内容并触发工作流;RSS / 站点监测工具:差异化能力收窄,需向『感知 + 推理』融合转型;企业:web-scale 监测的成本与合规边界(全网爬取的合法性)需要评估。

Numbers

从单页/单站升级到全网 /monitor 监测范围

早报判断

Firecrawl /monitor 升级到 web-scale 真正改变的是 agent 的『信息获取半径』——从 RSS / 站点级订阅跃升到全网监测。这意味着 agent 的『感知层』基础设施正式形成,搭配 Firecrawl 已有的爬取能力,Firecrawl 正在成为『agent 时代的搜索引擎』。结合 Orca 开源 computer use、Devin Security Swarm、Cognition Devin Fusion 等同期事件,agent 基础设施层(感知/推理/行动/安全)的分工正在清晰化:Firecrawl(感知) + Cognition(推理 + 行动) + Orca(行动) + Swarm(安全)。

接下来看:web-scale /monitor 的实际成本与全网爬取的合规边界 / Firecrawl 后续是否推出『按主题订阅』『按行业订阅』等细分能力

产品上新 重要度 2/5 高置信 官方源

Fish Audio S2.1 Pro 对开发者免费开放:83 语种、无用量硬上限,接口与付费版一致

Fish Audio 宣布 S2.1 Pro(付费版同款 TTS)对开发者免费开放,提供免费 API,支持 83 种语言,无硬性用量上限,沿用同一接口。已集成的只需把 model 设为 "s2.1-pro-free" 即可切换到 S2.1 Pro。这是 Fish Audio 把付费版核心模型开放给开发者的产品策略——降低 TTS 集成门槛、抢占开发者心智。

Why

Fish Audio 把付费版 S2.1 Pro 完全免费开放(83 语种 + 无用量上限),是 TTS 市场『基础能力免费化』的标志性产品策略;Fish Audio 抢占开发者心智的对标对象是 ElevenLabs。

Impact

ElevenLabs / OpenAI TTS:S2.1 Pro 免费后市场份额压力增加,需回应差异化能力(情感 / 实时流 / 长上下文);TTS 市场:基础能力免费化趋势明显,差异化必须走向情感 / 多语种 / 实时流等垂直场景;语音 AI 应用:Fish Audio 接口兼容性(模型名 s2.1-pro-free)降低集成成本。

Numbers

83 种语言 S2.1 Pro 支持语种数

早报判断

Fish Audio 把 S2.1 Pro 开放免费,本质上是『TTS 市场的 ElevenLabs 替代叙事』进入新阶段——83 语种 + 无用量硬上限 + 沿用付费版接口,等于把 ElevenLabs 付费版的核心能力完全免费化。这与智谱 ZCode 的 GLM Coding Plan 1.5x、Nous Hermes Agent 网页抓取 60x 形成呼应:2026 H2 正在出现一波『基础能力免费化』的产品策略,目的都是抢占开发者心智而非直接 API 收入。但需要观察:Fish Audio 的成本承担能力(免费 TTS 长期可持续性)、S2.1 Pro 实际质量是否真与付费版一致、对 ElevenLabs / OpenAI TTS 市场份额的冲击。

接下来看:Fish Audio 免费 TTS 的长期成本承担能力 / S2.1 Pro 实际质量与付费版一致性(独立基准对比)

产品上新 重要度 2/5 中置信 已核验

Codex App / CLI / SDK 可搭配任意开源模型使用:Codex 切换为 GLM 已成可用模式

@thsottiaux 提醒:Codex App、CLI、SDK 可搭配任意开源模型使用,不限于 OpenAI 模型;@zarazhangrui 进一步指出可以把 Codex 的模型切换为 GLM。这意味着 Codex 不再是 OpenAI 模型的专属载体,开发者可以用 Codex 的产品形态跑任意开源模型——BYOK 范式在 OpenAI 自身产品上的落地。

Why

Codex 支持任意开源模型(包括 GLM)是 OpenAI 自家产品做 BYOK 兼容的标志性事件,反映『模型可替换性』成为 2026 H2 开发者基本要求。

Impact

OpenAI:Codex 不再绑定 GPT-5 系列,把护城河定义为『agent 产品形态 + 多模型兼容』;GLM / Qwen / DeepSeek / Llama:接入 Codex 的开发者群体扩大,边际用户增加;ZCode / Cursor / Claude Code:BYOK 兼容成为标配,产品差异化能力收窄。

Numbers

任意开源模型 + OpenAI 模型 Codex 支持的模型范围

早报判断

Codex 支持任意开源模型,这意味着 OpenAI 自家产品 Codex 也在做『BYOK 兼容』——开发者可以保留 Codex 的产品体验,同时把模型切换为 GLM / Qwen / DeepSeek / Llama 等开源选择。这与智谱 ZCode 的 BYOK 形成对位:两家产品都把 BYOK 作为关键差异化卖点,反映 2026 H2 『模型可替换性』成为开发者基本要求。Codex 作为 OpenAI 旗下产品支持 GLM 是一个微妙的产品策略:OpenAI 把 Codex 的护城河定义为『agent 产品形态 + 多模型兼容』,而非『绑定 GPT-5 系列』,这是产品边界的重要调整。

接下来看:Codex 多模型兼容的官方文档完善度与最佳实践指南 / 开发者社区对 Codex + GLM 组合的实际采用率与场景

行业动态 重要度 2/5 中置信 已核验

Kulaxyz/self-learning-skills GitHub Trending 739★:AI 编码 agent 的自学习 skill 框架

GitHub 上 Kulaxyz/self-learning-skills 项目本日达 739★(discovery 候选最高),定位『A self-improving skill for AI coding agents』,兼容 Claude Code、Cursor、AGENTS.md 等主流 agent harness。这是继 7-01 awesome-evals(606★)、theeleven(691★)之后的第三个 600+ stars 的 agent 基础设施项目,反映『agent 自学习 / 自我改进』成为社区新热点。

Why

self-learning-skills 739★ 是本日 discovery 候选最高分,反映『agent 自学习』从研究走向社区产品,兼容 Claude Code / Cursor / AGENTS.md 三大 harness。

Impact

agent harness 厂商:Claude Code / Cursor / AGENTS.md 需要回应『自学习 skill』的能力扩展;agent 框架开发者:self-learning 作为新范式,与 harness 化范式互补;GitHub Trending:agent 基础设施项目持续走高(7-01 awesome-evals 606★、theeleven 691★,7-02 self-learning-skills 739★)。

Numbers

739★ self-learning-skills GitHub stars

早报判断

self-learning-skills 739★ 真正反映的是『agent 自学习』从研究概念走向社区产品——Claude Code / Cursor / AGENTS.md 三大主流 harness 同时兼容,意味着开发者不再需要为每个 agent 写死 skill,而是用一个自我改进的 skill 框架。这是与 Devin Fusion / Claude Science 的『harness 化』范式互补的另一条路径:harness 解决『agent 怎么调用』,self-learning-skill 解决『agent 怎么学习新能力』。739★ 反映社区对『agent 不再被 skill 列表锁死』的强需求。

接下来看:self-learning-skills 的实际自学习机制(offline 微调 / 在线 prompt 优化 / context 累积?) / Claude Code / Cursor / AGENTS.md 官方对 self-learning skill 的支持节奏

行业动态 重要度 1/5 中置信 发展中

Claude App 新增 Google 账号登录:无手机号验证,直接登录成功

@xiongchun007 实测:用 Google 账号直接登录了 Claude App,无手机号验证,直接登录成功。之前 App 登录界面似乎没有 Google 登录选项。这是 Anthropic 在降低用户进入门槛的产品改进——尤其对中国开发者更友好(Google 账号相对 Anthropic 直接注册需要海外手机号更易获取)。

Why

Claude App 新增 Google 账号登录是 Anthropic 在降低用户进入门槛上的产品改进,对中国开发者尤其友好。

Impact

中国开发者:Claude App 进入门槛降低,Claude Code / Fable 5 / Claude Science 的中国用户基础扩大;Anthropic:全球用户基础扩大,尤其 Google 账号覆盖的发展中国家;合规:Google 账号与 Anthropic 账号的数据共享边界需要观察。

Numbers

Google 账号,无手机号验证 登录验证方式

早报判断

Claude App 新增 Google 账号登录的产品改进反映 Anthropic 在『降低用户进入门槛』上的实际推进——尤其对中国开发者(此前需要海外手机号注册 Anthropic 账号),Google 账号的普及度与可用性显著更高。配合 Fable 5 7-1 全球回归 + jailbreak 框架,Anthropic 在 7-02 形成『治理 + 可用性』的双线推进。但需观察:Google 账号登录是否会带来新的合规边界(Google 账号与 Anthropic 账号的数据共享),以及中国地区 Google 账号的可用性。

接下来看:Google 账号登录的官方公告与正式上线时间 / Google 账号与 Anthropic 账号的数据共享边界

X / Twitter 讨论

推特上在讨论什么

精选 10 条从业者发言,点"原帖"看一手出处

ClaudeCodeLog @@ClaudeCodeLog 292 likes

Claude Code 2.1.198 发布,共 32 项 CLI 变更。亮点:Claude in Chrome 正式 GA(general availability),无需安装即可在浏览器里直接访问会话与 agents;Background agents 在 worktree 中完成代码后自动 commit、push 并开 draft PR,端到端交付自动化;文档建议用 grep 做搜索,并明确了 head_limit / unlimited / offset 语义以减少踩坑。

原帖 ↗
dotey @@dotey 54 likes

Fable 5 于 7 月 1 日起恢复上线。Pro、Max、Team 和部分 Enterprise 用户在 7 月 7 日之前,每周使用量限额的 50% 可用于 Fable 5;7 月 7 日之后改为按 usage credits 计费;标准 Enterprise 席位无免费额度,全部积分计费。AWS、Google Cloud、Microsoft Foundry 上的接入仍在恢复中;Mythos 5 仅向经美国政府批准的美国机构开放。

AnthropicAI:Anthropic 官方:Claude Fable 5 将于明日全球恢复上线。在与美国政府一系列建设性对话后,重新部署时附带一套新分类器以定向拦截更多网络安全任务;短期内部分常规任务(编码、调试)将回退到 Opus 4.8,接下来数周会持续调优分类器以降低误报并更好地区分真正滥用与合法请求。已与 Amazon、Microsoft、Google 等 Glasswing 伙伴起草评估 AI jailbreak 严重程度的共识框架,并邀请其他厂商加入。同时扩大与美国政府在模型测试与 safeguards 上的合作:包括发布前模型评估访问、jailbreak 与滥用信息共享、联合研究资源。
原帖 ↗
arena @@arena 120 likes

Fable 5 已重新进入 Arena。首次发布时 Fable 5 在 Agent Arena(衡量真实世界、长周期 agentic 表现的基准)排名 #1;该榜单基于全球用户提交的数百万真实任务,模型可访问网页搜索、文件系统与终端工具以完成复杂工作流,采用因果追踪衡量每个模型相对平均模型的优势,而非简单胜率。Fable 5 同步在 Text、Vision、Document、Code Arena:Frontend 上线。

claudeai:Fable 5 is back.
原帖 ↗
oragnes @@oragnes 3 likes

智谱官方正式发布 GLM-5.2 专属开发环境 ZCode。GLM 编程计划订阅者在 ZCode 中使用额度直接翻 1.5 倍,支持 macOS / Windows / Linux 全平台下载。ZCode 引入 BYOK(Bring Your Own Key)机制,允许直接配置现有 API key 或关联第三方订阅方案。

Zai_org:Introducing ZCode, the official development environment for GLM-5.2 — GLM Coding Plan 订阅者额度 1.5x,支持 BYOK(可绑定现有订阅和 API),macOS、Windows、Linux 均可下载。
原帖 ↗
zarazhangrui @@zarazhangrui 60 likes

提醒:可以把 Codex 的模型切换为 GLM。

thsottiaux:Reminder: Codex App、CLI、SDK 可搭配任意开源模型使用,不限于 OpenAI 模型。
原帖 ↗
cognition @@cognition 464 likes

Cognition 发布 Devin Security Swarm:在复杂代码库中查找安全漏洞的更便宜、更准确的新方案,基于全新架构 Agentic MapReduce。

原帖 ↗
FishAudio @@FishAudio 570 likes

Fish Audio 最好的语音模型对开发者免费开放。S2.1 Pro(付费版同款 TTS)提供免费 API,支持 83 种语言,无硬性用量上限,沿用同一接口。已集成的只需把 model 设为 "s2.1-pro-free" 即可切换到 S2.1 Pro。

原帖 ↗
firecrawl @@firecrawl 289 likes

Firecrawl 发布 web-scale 版 /monitor:常驻搜索,监测整个网络,新内容一上线即向你或你的 agent 发通知。此前 /monitor 只能监控单页或单个网站,现可作用于全网。当日上线。

原帖 ↗
xiongchun007 @@xiongchun007 19 likes

用 Google 账号直接登录了 Claude App,无手机号验证,直接登录成功。之前 App 登录界面似乎没有 Google 登录选项。

原帖 ↗
LinearUncle @@LinearUncle 68 likes

开源 Orca 的 computer use 跟 Codex app 一样好用。到目前为止 Codex app 的功能几乎都能在开源里找到替代——唯一还没看到对手的只剩 record & replay(录制回放)。

原帖 ↗
Previous Editions

往期早报

全部归档 →
周三 15 则

模型之争转入范式之争:Sonnet 5 携促销价登场,GeneBench-Pro 把 AI 智能体拽进科研,Claude Science 把算力调度交到科学家手里

过去 24 小时,OpenAI 与 Anthropic 罕见同日四发:Sonnet 5 携促销价 $2/$10 百万 token 正式登场,Intelligence Index 53 分与 GPT-5.5 同分、逊于 Opus 4.7/4.8;GeneBench-Pro 用 129 道合成题与已知因果结构,把『科学智能体』评估从『答得好不好』推向『能不能做真正的研究决策』;Claude Science 把 60+ 科研连接器、本地/HPC/Modal 算力调度、reviewer agent 自校打包成单一一站式入口;DeepMind 同步双发 Nano Banana 2 Lite($0.034/图)与 Gemini Omni Flash($0.10/秒)。同日 Mythos 出口管制松动信号再起、吴恩达系统阐述『Loop Engineering』三 Loop 框架、Nous Hermes Agent 网页抓取速度提升 60 倍、SGLang DSpark 预测解码实测数据放出、Sonnet 5 也被指嵌入了针对中国用户的隐蔽检测代码。

周二 20 则

Spotify × Claude Code 工业级落地 + Cognition Devin Fusion + Claude Azure GA:agent 工程的下一阶段竞争从模型层下沉到 harness 层

过去 24 小时模型发布继续暂缓,但 agent 工程的下一阶段轮廓已经清晰,三条主线同日落地。其一,Claude Code 作者 Boris Cherny 与 Spotify 工程 VP Niklas Gustavsson 公开对谈,披露 Spotify 每天约 4500 次生产部署、约 73% PR 涉及 AI、judge 评审模型把迁移 PR 通过率从约 25% 拉到约 80%,Boris 本人更有超 40% 代码由『验证循环』生成。其二,Cognition 发布 Devin Fusion 混合模型 harness,把达到 Fable 级智能的成本压低约 35%,并把『能跑 benchmark』与『能写生产代码』两条曲线明确分开。其三,Claude Opus 4.8 与 Haiku 4.5 在 Microsoft Foundry 正式 GA,补齐 Anthropic 云渠道的最后一块拼图,同日 bboczeng 披露其 6 月 ARR 约 470 亿美元。此外,百度 Unlimited-OCR 以 3B 总参 / 570M 激活的 MoE 冲上 HF/GitHub 四榜;美团 LongCat 揭晓 Owl Alpha——OpenRouter 日调用量全球 Top 3、三大 Agent 场景月调用量均登顶。这些事件指向同一判断:模型 API 同质化之后,竞争重心已从『谁的模型更强』下沉到 agent 工程范式、云厂商渠道、企业渗透速率三个更深的变量。

周一 13 则

平台条款战 + 企业运营操作系统战 + 物理供给战与人事墙:Google 限 Meta 用 Gemini、HP Frontier 全企业上线、贾扬清离开英伟达

过去 24 小时,真正的当日主线不是又出一个模型,而是同时砌起的三道墙:Google 据 FT 报道限制 Meta 使用 Gemini,平台方首次把模型访问条款做成对竞争对手的武器;OpenAI 把 Frontier 战略合作的第一个全企业客户交给 HP,验证 Frontier 作为'运营操作系统'的端到端落地;Coinbase 一口气把默认模型换到 GLM 5.2 与 Kimi 2.7 等开源权重,AI 支出砍近半,LibreChat 缓存命中率从 5% 拉到 60%。同时,Meta 在 Nature 上发表 Brain2Qwerty v2 端到端脑机接口、贾扬清离开被收购仅一年的英伟达、DeepSeek V4 官宣 7 月中旬发布并引入高峰 2 倍定价。每一条都指向同一个判断:模型发布期暂缓后,AI 产业竞争的重心正从'谁的模型更强'下沉到'模型之外'——谁能用条款卡住对手的供给、谁先把企业内部 agent 当成操作系统、谁能让基础设施继续扩张。

周日 14 则

官方按下暂停键的一天:GPT-5.6 三档预览余热未散,看点转向开源追平与 Mythos 出口管制松动

过去 24 小时,OpenAI 与 Anthropic 官博都没有新的重磅发布——GPT-5.6 Sol/Terra/Luna 三档预览是 6-26 的余热,Claude Tag 进 Slack 是 6-23 的延续。真正的当日动态集中在社区与开源侧:OpenRouter 抛出『开源与闭源前沿差距稳定在 3-6 个月、18 个月没被拉开』的判断,DeepSeek 开源投机解码全栈库 DeepSpec,Coinbase 把默认模型换成开源权重后 AI 支出近乎减半;政策面上,被华府暂停访问的 Mythos 5 据社区转述出现『部分解禁』,亚洲厂商趁封锁窗口抢推 Mythos-like 模型。一句话:今天没有新模型上线,但『谁追上了、谁被允许上线』这两条暗线都在加速。

周六 17 则

GPT-5.6 三档齐发首由政府审查放行,开源侧 DSpark 与 GLM-5.2 逼近前沿

OpenAI 发布 GPT-5.6 Sol/Terra/Luna 三档模型,Sol 为迄今最强但首次由美国政府审查用户名单后限量放行;同期 Anthropic Mythos 5 恢复向美国可信机构部署,出口管制空档催生亚洲厂商推 Mythos-like 模型。开源侧两记重拳:DeepSeek DSpark 投机解码无损提速 60-85% 并全栈开源,智谱 GLM-5.2(7440 亿参数/MIT)登顶 Code Arena、距 Claude Opus 4.8 不到 1%。三方真实落地数据——OpenAI 内部 Codex token 占比 10 个月升至 99.8%、Anthropic 调查显示三分之一人认为初级岗位高概率被替代、字节 TRAE 90% 代码 AI 生成但人均吞吐仅 1.6 倍——共同指向同一结论:智能体已渗进专业岗位,但工程化交付仍是瓶颈。

周五 17 则

GPT-5.6 三档齐发,前沿 AI 进入"政府审批"时代

OpenAI 预览 GPT-5.6——旗舰 Sol、均衡 Terra、低价 Luna 三档齐发,主攻网络安全与长程推理。但与模型同样抢眼的是治理:美国政府要审查谁能用 GPT-5.6 并要求延期,Anthropic 的 Mythos 5/Fable 5 也在政府指令下暂停又部分恢复,前沿 AI 正被纳入国家安全框架。同日 Anthropic 指控阿里非法蒸馏 Claude 能力,DeepSeek 用 DSpark 把推理再提速 80%,Qwen 开源世界模型宣称超 Opus 4.8——开源与闭源、东方与西方的张力全面浮现。

周四 3 则

Claude Tag 把 AI 嵌进工作流,交互范式开始第三次迁移

这一天,Anthropic 发布 Claude Tag,让 Claude 以团队成员身份加入团队既有的协作工具。一位资深研究者把它称为大模型交互设计的「第三次重构」——从「你要去访问的网站」,到「电脑里的应用」,再到「融入人类活动的持续实体」。同周,另一家头部厂商也在把 AI 往工作流深处推,但路径不同:一家讲「智能体替你做事」,一家讲「它伴你做事」。两条路线的分歧,正在显形。

周三 12 则

Anthropic 指控阿里「非法蒸馏」Claude 闹进参议院,同一天 Qwen 智能体论文登顶 HuggingFace;agent 研究密集轰炸

本期为历史回溯补档(归档日 2026-06-24,北京时间)。实时社媒与算法推荐流无法回溯,且检索期间 WebSearch 接口不稳定,主线事实依据当日 CNBC 同日报道、HuggingFace 策展论文与公开发布交叉整理,所有数字均可溯源至一手页面;凡仅见于单方信件或自建基准的内容,文中已标注 caveat。当天的硬新闻是 Anthropic 致信美国参议院银行委员会,指控与阿里关联的操作者用约 2.5 万个欺诈账户、2880 万次交互「非法提取」(蒸馏)Claude,称这是它「已知最大的一次蒸馏攻击」;戏剧性的是,指控见报同一天,阿里 Qwen 的智能体论文 Qwen-AgentWorld 以 136 票登上 HuggingFace 当日榜首。除这条「IP 与中美 AI 竞争」主线外,当天 HuggingFace 被 agent 研究刷屏:从长程规划评测(PlanBench-XL)、真实职场基准(EnterpriseClawBench)、经验学习(EDV)到开源数据配方(OpenThoughts-Agent),集体把焦点对准『智能体到底行不行、怎么训才行』。

周二 12 则

智能体能力被「极限拷问」:长程规划与真实办公评测同日登场,效率派架构集体发力

本期为历史回溯补档(归档日 2026-06-23,北京时间),实时社媒与算法流无法回溯,主要依据当日 HuggingFace 策展论文与可检索到的公开发布整理;检索期间 WebSearch 接口持续不可用,深度选题以一手 arXiv/HuggingFace 论文为主力支撑,事实可溯源。当天没有头部厂商的重磅模型发布,主线落在「智能体到底行不行」的硬核评测上:PlanBench-XL 用 1665 个工具、平均 25 轮的零售任务把前沿模型的长程规划逼到崩溃,EnterpriseClawBench 则把 852 个真实职场会话变成可复现评测,直接给 Claude Code、Codex 等 harness 打分。与此同时,GQE、R-SWA、Confident Decoding 等一批「省算力不掉点」的架构/解码工作集中出现,透露出当下业界对推理成本与可靠性的共同焦虑。

周一 12 则

Five Eyes 警告前沿 AI「数月内」改写网络攻防,GLM-5.2 续压开源成本,智能体记忆研究扎堆

本期为「AI 早报」历史回溯补档(归档日 2026-06-22,北京时间),实时社媒源无法回溯,内容主要依据当日 HuggingFace 策展论文(一手可溯源材料)与可检索到的公开发布/权威媒体报道整理,带主观判断的部分均已标注置信度。当天最硬的官方事件是 Five Eyes 五国情报与网络安全机构罕见联合发声,警告前沿 AI 将在「数月而非数年」内放大进攻性网络能力;研究侧则呈现明显的「智能体记忆 + 扩散语言模型」聚集,HuggingFace 高赞榜被分层记忆、记忆治理、并行区域感知、长程具身记忆等议题占据。模型与产业线多为聚合媒体单一信源转述(GPT-5.6 预览、Fable 5 出口禁令、Noam Shazeer 转投 OpenAI 等),已逐条降置信处理。