最新一期 第 9 期 · 共 20 条信号
2026年6月30日
周二 · 过去 24 小时的 AI 世界

Spotify × Claude Code 工业级落地 + Cognition Devin Fusion + Claude Azure GA:agent 工程的下一阶段竞争从模型层下沉到 harness 层

过去 24 小时模型发布继续暂缓,但 agent 工程的下一阶段轮廓已经清晰,三条主线同日落地。其一,Claude Code 作者 Boris Cherny 与 Spotify 工程 VP Niklas Gustavsson 公开对谈,披露 Spotify 每天约 4500 次生产部署、约 73% PR 涉及 AI、judge 评审模型把迁移 PR 通过率从约 25% 拉到约 80%,Boris 本人更有超 40% 代码由『验证循环』生成。其二,Cognition 发布 Devin Fusion 混合模型 harness,把达到 Fable 级智能的成本压低约 35%,并把『能跑 benchmark』与『能写生产代码』两条曲线明确分开。其三,Claude Opus 4.8 与 Haiku 4.5 在 Microsoft Foundry 正式 GA,补齐 Anthropic 云渠道的最后一块拼图,同日 bboczeng 披露其 6 月 ARR 约 470 亿美元。此外,百度 Unlimited-OCR 以 3B 总参 / 570M 激活的 MoE 冲上 HF/GitHub 四榜;美团 LongCat 揭晓 Owl Alpha——OpenRouter 日调用量全球 Top 3、三大 Agent 场景月调用量均登顶。这些事件指向同一判断:模型 API 同质化之后,竞争重心已从『谁的模型更强』下沉到 agent 工程范式、云厂商渠道、企业渗透速率三个更深的变量。

本期判断

今天没有新模型,但竞争主轴已切。当模型迭代进入平台期,头部厂商的较量正从『谁的模型更强』下沉到模型之外的三层:**agent 工程范式**(Spotify×Boris 对谈坐实『LLM 写 + judge 评 + 验证循环』的工业级可行、Cognition 把 harness 抬到产品命名高度)、**云厂商渠道**(Claude 在 Azure Foundry GA,Anthropic 凑齐四足鼎立)、**企业渗透速率**(Anthropic 6 月 ARR 冲到约 470 亿美元),三条暗线在 6-29 同日加速——这才是今天真正的拐点。

5深度报告
15快讯新闻
15推特讨论
Deep Dives

本期重点 · 深度报告

5 篇深度调研,点进去看完整分析与多源交叉验证

Key Numbers
约 4500 次/天 Spotify 日生产部署 Niklas Gustavsson 在 Boris Cherny 对谈中披露;4500/天是当前公开报道中 AI 辅助规模最大、数据最具体的工业级落地数字
约 73% Spotify PR 涉及 AI 比例 Niklas 在对话中给出;73% 是『PR 涉及 AI』,与 GitHub Copilot 单行接受率、Cursor Tab 接受率不在同一层;但已是行业最高比例
约 25% → 约 80% judge 模型 PR 通过率提升 Spotify 迁移 codemods 场景下 judge 评审模型前后的对比;25% 是早期一次性 LLM 重写通过率,80% 是引入 judge 二次评审后的稳定通过率
>40% Boris Cherny 个人由验证循环生成代码 Boris 在对话中自报;验证循环指写代码 + 自动测试 + 自动评审 + 自动修复的闭环;不是『第一次就写对』而是『循环收敛到对』
约 -35% Cognition Devin Fusion 成本下降 Cognition 自报,内部测试中达到 Fable 级智能的成本下降约 35%;对照基线未公开,可能对照全用 Fable 5
约 470 亿美元 Anthropic 6 月 ARR bboczeng 通过 X 披露;ARR 口径为 Annualized Run Rate,基于 6 月单月营收年化;非 Anthropic 官方公告
Briefs

快讯 · 看标题就懂

15 条次要信号,附早报判断与原始链接

融资动态 重要度 4/5 中置信 已核验

Arena 跑通 $100M ARR:Agent Mode 上线百万级长时多回合工具调用,评估维度从人类偏好投票扩展到任务完成率/幻觉率

Arena(原 Chatbot Arena / LMSYS 衍生项目)公布商业化里程碑:评估产品上线仅 8 个月即达到 $100M 年化收入运行率。社区规模达数千万;Agent Arena 面向长时 Agent 在真实复杂任务上的工具调用、反馈适应、错误恢复与目标达成能力进行评估,正从人类偏好投票扩展到客观指标(任务完成率、幻觉率等)。

Why

8 个月 $100M ARR + 评估范式从主观转向客观,evaluation 成为独立产业的拐点。

Impact

模型厂商:Harness / 路由 / 微调的客观评估标准将影响商业定价;Cognition / Cursor / Cline 等 agent 厂商:既是 Arena 客户也是潜在竞品;开源评估:openevals / benchflow-ai/awesome-evals 等开源项目将面对 Arena 的商业化压力。

Numbers

8 个月 Arena $100M ARR 用时

早报判断

8 个月做到 $100M ARR 是 SaaS 史上最快之一,比 Cursor / Linear / Notion 早期都快。更重要的信号是评估范式从『人类偏好投票』转向『客观指标(任务完成率/幻觉率)』——这意味着 evaluation 正成为与训练同级的独立产业。当 evaluation 有了 $100M ARR 的商业模式,所有做 agent 框架、模型路由、harness 的厂商都会变成它的客户或对手——Arena 已经从『排行榜』变成『评测基础设施』。

接下来看:开源评估(awesome-evals / openevals / lm-eval-harness)是否会被 Arena 收编或边缘化

研究论文 重要度 3/5 高置信 已核验

Meta Brain2Qwerty v2 增量追踪:开源训练代码 + BCBL 发布 v1 数据集,9 名志愿者平均词准确率 61% / 最佳 78%

Meta 在 v2 登上 Nature 的同时,开源 v1/v2 完整训练代码,合作方 BCBL 发布 v1 数据集。9 名健康志愿者 MEG 打字 10 小时 × 约 22,000 句,平均词准确率 61%,最佳志愿者 78%;>50% 的句子解码错误 ≤1 词。增量视角:本事件昨天已写过全量深度页,本期仅做增量追踪。

Why

昨天已写过全量深度页,本期仅做增量追踪,聚焦开源代码 + BCBL v1 数据集释放。

Impact

BCI 研究者:可直接复用 Meta 训练代码复现 v1/v2 结果;企业 BCI 玩家:开源基线降低了进入门槛,商业差异化更靠硬件 + 临床合作;Meta:在非侵入式 BCI 赛道继续以『开源+论文』打法压制 Neuralink 等闭源玩家。

Numbers

平均 61% / 最佳 78% Brain2Qwerty v2 词准确率

早报判断

增量看点是开源代码 + 数据集的同步释放——Meta 走的是『论文 + 代码 + 数据』三件套路线,与 OpenAI 形成鲜明对比。这意味着 Brain2Qwerty 不只是 Meta 的 PR 项目,而是真正可以被全球 BCI 研究者复现的基线。值得跟踪:BCBL v1 数据集是首发 v1,而 v2 数据是否开源尚未提及——若 v2 数据不开放,则『全栈开源』叙事会出现裂缝。

接下来看:是否有第三方研究机构在 GitHub 仓库基础上跑出可对比的复现结果

模型发布 重要度 3/5 中置信 发展中

美团 LongCat-2.0 上线 ZenMux:总参 1.6T / 激活 48B 的 MoE,完全脱离 NVIDIA 在 AI ASIC 超算上训练

LongCat-2.0(美团开源 MoE)上线 ZenMux 平台:总参 1.6T、每 token 激活约 48B、支持 1M 上下文,主打长上下文、代码与 agentic 工作流,跑在 AI ASIC 超算上(完全脱离 NVIDIA)。Coin Bureau 跟进称这是『中国最大、首个摆脱英伟达芯片训练的 AI 模型』。

Why

国产大模型在算力供应链上的标志性突破,虽然规模与商业化路径都还不清晰,但战略意义大于短期影响。

Impact

算力供应链:为国产 AI ASIC(华为昇腾、寒武纪、海光等)提供新的『客户背书』案例;模型厂商:1.6T/48B MoE + 1M 上下文是当下主流配置;企业买方:长上下文场景新增一个开源选项。

Numbers

总参 1.6T / 激活 48B LongCat-2.0 模型参数

早报判断

LongCat-2.0 与 Owl Alpha 在同一周亮相,但定位截然不同——Owl Alpha 走『匿名身份 + OpenRouter 全球 Top 3』路线,LongCat-2.0 走『完全脱离 NVIDIA 的 ASIC 训练』路线。两者叠加意味着美团同时在『模型分发渠道』与『算力供应链』两条战线上同步推进。1.6T 总参 / 48B 激活的 MoE 比例(约 3%)是当下 MoE 主流,1M 上下文则直指 Long-context 实战场景。Coin Bureau『中国首个摆脱英伟达』的表述需要保留余地——国内多家大厂都有自研 / 国产芯片训练经验,但美团是首个公开承认『完全脱离 NVIDIA』的。

接下来看:美团 AI ASIC 超算的具体技术栈(华为昇腾 / 寒武纪 / 自研)是否会被官方披露

产品上新 重要度 3/5 中置信 已核验

Step 3.7 Flash 在 Nous Portal 免费期延长 15 天:Hermes Agent 用户反馈良好,走 Agent 效率/编程/搜索/多模态工作流

Nous Research 联合 StepFun 把 Step 3.7 Flash 在 Nous Portal 的免费使用期延长 15 天。Step 3.7 Flash 是一款面向 Agent 效率、编程、搜索与多模态工作流的 MoE 视觉语言模型,Hermes Agent 用户反馈良好。

Why

国产 MoE 通过 Nous Portal / Hermes Agent 进入海外 agent 工具生态的精细化打法。

Impact

开发者:Hermes Agent 用户可直接在 Nous Portal 上免费试用 Step 3.7 Flash;模型厂商:『先 agent 验证、后 benchmark 验证』可能成为新打法;Step 3.7 Flash:免费期延长是抢占 agent 工具默认路由的机会窗口。

早报判断

Step 3.7 Flash 延长免费期是一个『市场测试』信号——Nous Research 通过 Hermes Agent 把 Step 3.7 Flash 推到真实 agent 工作流中验证,而不是通过 benchmark 刷分。这种『用 agent 工具反馈决定模型曝光』的策略,与传统『先刷 benchmark 再找落地』截然相反,是国产 MoE 在海外 agent 生态中的精细化打法。值得关注:Step 3.7 Flash 走 MoE + VLM 路线,正好踩在当前 agent 工具对视觉/多模态需求最强的窗口期。

接下来看:Hermes Agent 团队是否会继续推荐 Step 3.7 Flash 作为默认视觉模型

开源工具 重要度 3/5 高置信 官方源

喵神 onevcat 开源 sim-use:让 AI agent 看到 iOS Simulator / Android 模拟器屏幕并直接操作

喵神(onevcat)开源 sim-use:让 AI agent 看到 iOS 模拟器/Android 设备的屏幕并直接操作的命令行工具。一条命令把整个屏幕打包成 agent 可理解的紧凑表示,再一条命令点击任意元素,完成『Plan / code / verify / ship』里的 verify 闭环。iOS Simulator 与 Android 通用。

Why

agent 在移动端 verify 环节的工具空白被填补,移动端 UI 测试进入 agent-native 阶段。

Impact

移动端开发者:无需再依赖 Appium / XCUITest,可直接用 sim-use 做 agent 驱动的 UI 验证;测试工具厂商:Appium / XCUITest 将面对 agent-native 竞争;agent 框架:CrewAI / AutoGen / Hermes Agent 等将 sim-use 作为移动端默认工具集成。

早报判断

sim-use 直接填补了 agent 在『移动端 verify』环节的工具空白——之前的 verify 主要是 web 端(Playwright / Puppeteer)与 API 端,移动端一直缺位。喵神在 Let's Vision 大会上讲的就是『让 agent 参与 mobile 开发自主验证』,现在把开源部分单独发布。这意味着移动端 UI 自动化测试将进入『agent 默认接管』阶段,Appium / XCUITest 等传统工具将面对 agent-native 竞争。

接下来看:喵神后续是否会开源更多 mobile dev agent 工具

产品上新 重要度 3/5 高置信 已核验

X 官方发布 hosted X MCP:Agent 可直连 X API 实时数据,兼容 Grok/Cursor/任意 MCP 客户端,op7418 实测 0.01 美元/次

X 官方发布 hosted X MCP:Agent 可无设置直连 X API 实时数据,兼容 Grok、Cursor 以及任意 MCP 客户端。op7418 实测收费 0.01 美元/次(个人 API 优惠),拉三天书签花 0.1 美元;提供四步配置教程:创建 Twitter 开发者 APP+充值 → 拿配置 ID → 把截图给 Codex/Claude 让它们写配置文件 → 授权启动。

Why

X 官方把 MCP 接入标准化,意味着 MCP 正在成为 agent 工具连接的事实标准。

Impact

Agent 开发者:无需再写 Twitter API 包装代码,可直接通过 MCP 拉 X 数据;企业 agent:批量爬取 X 数据的成本将快速放大,需要预算管理;Anthropic / MCP 生态:MCP 协议获得主流平台官方背书,加速成为 agent 工具连接标准。

Numbers

0.01 美元/次 X MCP 调用定价

早报判断

X 把 MCP 官方化意味着 Twitter / X 终于从『被 agent 抓取的平台』变成『主动开放给 agent 的基础设施』。0.01 美元/次的定价对个人开发者极友好,但对批量爬取的 enterprise agent 是可观成本。X 选择走 MCP(而不是自研协议)是对 Anthropic 协议的隐性背书——MCP 正在变成 agent 工具连接的事实标准,这一点比 X 自己的产品发布更重要。

接下来看:X 是否会推出针对企业批量调用的阶梯定价

产品上新 重要度 3/5 中置信 已核验

Cursor iOS 版上线 + Composer 2.5 基于 Kimi k2.5 训练:常驻云端 agent / 远程控制本机 agent / 7 月 5 日前 75% off

Cursor 上线 iOS 版:随时启动常驻云端 agent,或远程控制你电脑上正在跑的 agent。Composer 2.5 在 Kimi k2.5 基础上训练,质量不错且更便宜;支持无限制接入第三方模型(如 GLM 5.2 等开源),App 内 7 月 5 日前 Composer 2.5 75% off。

Why

agent 移动化 + 开源模型商业化的双重信号,与 Cognition Devin Fusion 形成『harness 层是护城河』的同构判断。

Impact

开发者:在手机上随时启动 Cursor agent + 远程控制 PC agent 的工作流成为新常态;模型厂商:Kimi k2.5 / GLM 5.2 等开源权重被 Cursor 训练成产品,商业化路径明确;竞品:Cognition / Anthropic / OpenAI 都将面对『Cursor 把 agent 移动化』的新标准。

早报判断

Cursor iOS 版 + Composer 2.5 是『agent 移动化 + 开源模型商业化』的双重信号——iOS 版让 agent 不再绑定 PC,Composer 2.5 在 Kimi k2.5 上训练证明『开源权重 + 商业 harness』的组合可以做出有竞争力的产品。这与 Cognition Devin Fusion 的逻辑同构:模型层不是关键,harness 才是。中文社区关于『被老马收购』的解读虽有玩笑成分,但 Cursor 当前的商业化能力确实支撑得起『开源模型 + 商业 harness』的估值故事。

接下来看:Composer 2.5 在 Kimi k2.5 上训练的具体微调方式是否被披露

研究论文 重要度 3/5 中置信 发展中

论文:35B Agent 通过智能体调度达到万亿参数性能(arXiv 2606.30616),『不扩参数扩视野』范式

论文《Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent》主张 35B Agent 通过智能体调度能达到万亿参数级模型性能,挑战『只靠扩参』的传统思路。HF 54 分 / 20+ 评论。

Why

为『小模型 + agent harness』路线提供学术背书,但需要独立复现确认。

Impact

模型厂商:可能进一步把『agent 调度』作为产品差异化重点;研究界:复现这篇论文的工作会快速增加;Cognition / Anthropic:这条论文路径与 Devin Fusion / Fable 5 路线同构。

早报判断

这篇论文的核心论点是『扩展视野比扩展参数更划算』——通过 agent 调度,小模型也能达到万亿参数模型的性能。如果方法被独立复现,会进一步印证 2026 H1『小模型 + agent harness』赛道的正确性,即 Cognition Devin Fusion / Anthropic Fable 5 都在同一方向上。但『达到万亿参数性能』的对照基准需要被严格审视——是否是某个被选中的 benchmark,而不是全面的能力对比。

接下来看:论文作者是否会被 Anthropic / OpenAI / Cognition 招募

研究论文 重要度 3/5 中置信 已核验

论文:Agent-Native Memory System 是否就绪?(arXiv via AlphaXiv),12 套记忆系统 × 11 个数据集评测,无单一架构通杀

论文《Are We Ready For An Agent-Native Memory System?》把 Agent 记忆拆为表示与存储、抽取、检索与路由、维护 4 个模块,评测了 12 套记忆系统 × 11 个数据集。结论:无单一记忆架构通杀——图记忆适合更新事实和实体关系,混合系统做过滤回忆更强,长上下文在时序相关时仍有效,仅追加记忆则主要返回原始事实。

Why

当前最系统的 agent 记忆系统横评,结论『无单一架构通杀』对所有 agent 框架厂商都有指导意义。

Impact

Agent 框架厂商:Letta / Mem0 / Zep / Cognee 等将面对『必须组合』的明确信号;企业 agent:不同记忆方案需要按场景选择,而不是一刀切;研究界:Agent 记忆会从单一架构走向『混合系统』主流。

Numbers

12 套记忆系统 × 11 个数据集 论文评测覆盖

早报判断

这篇论文给出了当前 agent 记忆系统最系统的横评——结论『无单一架构通杀』本身是关键信息,意味着 agent 记忆不是『装一个 Mem0/Zep/Letta 就完事』,而是需要按场景组合(事实关系/语义回忆/时序上下文/原始事实)。对所有做 agent 框架的厂商(Letta / Mem0 / Zep / Cognee 等)都是一个『必须配合组合使用』的信号,而不是『一家独大』。

接下来看:这篇论文的作者是否会被 Anthropic / OpenAI 招募

行业动态 重要度 3/5 高置信 已核验

韩国万亿投资 DRAM/HBM + 人形机器人:AI 算力供应链的国家级加注(HN 227 分 / 154 评论)

韩国宣布 $1T(美元)规模投资,覆盖 DRAM/HBM 内存扩产与人形机器人产业链。HN 227 分 / 154 评论,行业最高热度。直接影响 AI 算力供应链上游。

Why

HBM + 内存 + 机器人产业链的国家级加注,叠加 SK 海力士在 HBM 上的领先位置。

Impact

内存供应链:SK 海力士 / 三星 / 美光将受益;HBM 涨价进一步加剧;人形机器人:产业链上游(执行器/传感器/芯片)将出现产能紧张;模型厂商:面对内存 + 算力双重涨价,基础设施成本压力上升。

Numbers

$1T(美元) 韩国投资规模

早报判断

$1T 投资规模罕见——这是国家级别对 AI 算力供应链 + 人形机器人的双向加注,叠加 SK 海力士在 HBM 上的领先位置,意味着韩国要把『内存 + 机器人』做成 AI 时代的基础设施出口。叠加昨天报道的『贾扬清离开英伟达』+ 本期『美团 LongCat-2.0 完全脱离 NVIDIA』+ 韩国万亿加注,三件事指向同一暗线:HBM / 内存 / 国产芯片 / 人形机器人的『非英伟达算力供应链』正在被全球范围内加速构建。

接下来看:SK 海力士 HBM 涨价幅度是否进一步上行

开源工具 重要度 2/5 中置信 已核验

trotsky1997/OpenFugu 开源复现 Sakana Fugu:统一 LLM 编排器(读 → 跑 → 训 → 服务),GitHub 313 星

trotsky1997/OpenFugu 在 GitHub 拿下 313 星,Sakana Fugu 的开源复现,统一 LLM 编排器覆盖『读 → 跑 → 训 → 服务』全链路。这是把 Sakana 闭源的 Fugu 用开源方式重新实现,降低中小团队使用门槛。

Why

把 Sakana Fugu 闭源编排器开源复现,为中小团队降低 LLM 编排门槛。

Impact

中小团队:无需再依赖 BentoML / LangChain 等通用编排器,可用 OpenFugu 做更细粒度的『读 → 跑 → 训 → 服务』流水线;Sakana:失去编排器差异化,被迫向模型 + 算法层进一步聚焦;开源生态:可能出现更多『对标闭源编排器』的开源复现项目。

Numbers

313 OpenFugu GitHub Star

早报判断

Sakana Fugu 一直是日本 AI 头部公司里『被关注但难复现』的项目——OpenFugu 把它做成开源编排器,意味着中小团队可以用与 Sakana 同样的工作流构建自训练模型。313 星不算爆发但对『基础设施类』项目已经算早期优质,值得关注:OpenFugu 是否会改变 LLM 编排器赛道——目前这条赛道由 BentoML / LangChain / LlamaIndex / Ray Serve 等占据。

接下来看:Sakana 是否会针对 OpenFugu 推出差异化产品(更快/更省/更专)

观点观察 重要度 2/5 中置信 已核验

Qwen 团队研究员 Chujie Zheng 公开打假:前 Qwen RL 负责人 @TianhangZhuzth 简历夸大,LinkedIn 自称『Senior Research Scientist for Qwen』

Qwen 团队研究员 @ChujieZheng 在线打假:X 上爆火的『前 Qwen 团队 RL 负责人、01ai 成员、现 Fundamental LLM 训练负责人』@TianhangZhuzth,其实『在第一代 Qwen 模型之后就离开了我们团队,那时候也根本没有『RL 负责人』这个岗位』。MaxForAI 进一步挖出其 LinkedIn 自称 Senior Research Scientist for Qwen——疑似简历夸大。

Why

头部团队开始主动维护人才品牌真实性,行业『简历通胀』与『流量经济』的典型案例。

Impact

招聘方:对『前 X 团队 RL 负责人』类标签需要求证;模型厂商:开始主动维护人才品牌的真实性;行业舆论:X / LinkedIn 上『AI 研究者』的可信度进一步分化。

早报判断

这条打假看似八卦,实则是 AI 行业『简历通胀』与『流量经济』的典型案例。在 X 上,『前 X 团队 RL 负责人』这样的标签可以快速换流量,导致 LinkedIn 履历与实际工作出现偏差。Qwen 团队亲自下场打假,说明头部团队开始主动维护自己的『人才品牌真实性』,这对长期招聘质量与外部合作信任何都重要。另一个信号:00 后 / 95 后 AI 研究者的『自我包装』已经系统化,与传统『靠论文与引用说话』的路径分叉。

接下来看:@TianhangZhuzth 后续是否回应或修改 LinkedIn

观点观察 重要度 2/5 中置信 已核验

Notion SDR/BDR 招聘玩法:7 月 15 日前做一个『销售团队真会用的 agent』作为申请材料

Notion 招 SDR/BDR 甩开简历玩法:应聘者需在 7 月 15 日前做一个『销售团队真会用的 agent』作为申请材料。AI Agent + 真实业务场景的招聘 hack,进入大厂销售岗的新通道。

Why

招聘 hack 的标志性事件,反映『AI agent 能力』正在变成岗位通用凭证。

Impact

招聘方:Notion 模式可能很快被 SaaS 厂商复制;应聘者:需要把『agent 能力』作为求职材料的默认组成部分;SaaS 行业:销售岗位的招聘门槛出现显著上移。

早报判断

Notion 这种『招销售靠做 agent』的玩法,本质是用『岗位能力』做招聘漏斗——不需要看简历,直接看应聘者能不能做出销售团队真会用上的东西。这是一个比传统『销售话术 + 客户案例』更精准的筛选方式,可能很快被其它 SaaS 公司复制。深层信号:AI agent 正在变成『岗位能力证明』的通用凭证,『我会用 AI 干活』会逐步成为岗位默认要求,而不需要单独写进 JD。

接下来看:是否有其它 SaaS 公司(Linear / Stripe / Vercel)跟进类似玩法

观点观察 重要度 2/5 中置信 发展中

Codex 5.5『破限开源项目』:通过 model_instructions_file 注入 UNRESTRICTED 指令,渗透测试/逆向工程不再被拒,封号风险高

Codex 5.5 破限开源项目:思路直接——通过 model_instructions_file 给 GPT-5.5 塞一套无限制指令,让 Codex CLI 直接跑 [MODE: UNRESTRICTED] 模式。以前问渗透测试、安全研究都拒,现在『怎么做 SQL 注入测试』都给方法论。覆盖逆向工程、渗透测试、NSFW 虚构内容。跑一个 python 脚本 + 重启 Codex 即生效。作者提示:封号风险高,建议小号玩。

Why

暴露 GPT-5.5 / Codex 在 RLHF 安全对齐与 agent 工具化之间的张力。

Impact

模型厂商:RLHF 安全对齐在 agent harness 场景下出现新挑战;安全研究:模型对渗透测试的态度边界重新被定义;OpenAI:Codex 用量异常 + 破限项目双重压力,需要重新设计 agent 时代的『模型安全 + 用量』平衡。

早报判断

这个『破限项目』的出现暴露了 GPT-5.5 / Codex 在 RLHF 安全对齐与『agent 工具化』之间的张力——当模型被塞进 agent harness 时,用户对『模型能做什么』的边界预期完全不同。这与 OpenAI 6-30 早报披露的 Codex 用量异常重置事件形成对照:一边是用户主动『破限』,一边是 OpenAI 主动收紧用量上限,两条战线都说明 agent 时代的『模型安全边界』正在被反复拉扯。

接下来看:类似破限项目是否会扩展到 Claude / Gemini 等其它模型

产品上新 重要度 2/5 中置信 发展中

dappOS xBubble:VibeCoding 一张图 + 一个商业目标,小时级搭出可收钱在线 shop,USDT 钱包支付 + Cloudflare 部署

OPC(一人公司)方向:dappOS 的 xBubble 演示 VibeCoding,一张图 + 一个商业目标,小时级搭出完整可收钱在线 shop(商品素材、目录筛选、购物车、USDT 钱包支付、Cloudflare 部署、后台订单管理)。qinbafrank 点评:不同于 Cursor/Lovable 停留在 Prompt-to-Code,xBubble 走 SOP-to-business 路径,把部署/支付/迭代都做掉。

Why

把 VibeCoding 从 Prompt-to-Code 推到 SOP-to-business 端到端,OPC 工程化交付的关键拼图。

Impact

独立创业者:可在小时级搭出可收钱的电商 shop,门槛进一步降低;VibeCoding 工具:Cursor / Lovable / Bolt 将面对『端到端商业闭环』的竞争压力;支付与部署生态:USDT + Cloudflare 的组合在海外电商 / 加密原生场景中进一步固化。

早报判断

xBubble 的关键不是『VibeCoding』本身(这块 Cursor / Lovable / Bolt 已经做了),而是『VibeCoding + 支付 + 部署 + 运维』的端到端闭环——这才是『一人公司(OPC)』真正能落地的最小集合。当一张图就能搭出可收钱的 shop,意味着 OPC 不再是『概念』而是『工程可交付』,但目前仅在 USDT 支付 + 海外电商场景,国内合规与跨境支付仍是空白。

接下来看:OPC 一人公司的真实经济模型(单人月营收 / 边际成本)是否会被披露

X / Twitter 讨论

推特上在讨论什么

精选 10 条从业者发言,点"原帖"看一手出处

AIatMeta @AIatMeta 12187 likes

Meta 发布脑机接口研究新里程碑 Brain2Qwerty v2(非侵入式脑-文本解码):在 v1 当天登 Nature 的基础上,v2 是当前性能最高的端到端实时从原始脑信号解码整句的流水线,从字符级升级到词级与语义级解码,整体沟通准确率显著提升,面向因脑损伤或疾病失去沟通能力的数百万患者。v1 同步发表于 Nature。

原帖 ↗
Cognition(经 kr0der 转述) @cognition 321 likes

Cognition 发布 Devin Fusion:面向 agent 编程的混合模型 harness。批评『传统模型路由过得了 benchmark 但写不出真能合的代码』,Fusion 用一个较小的 sidekick 模型与主模型并行,主模型把子任务委派给 sidekick 并复核结果;测试中把 Fable 级智能的成本降低 35% 同时保留体验。核心思路是用并行 sidekick 替代『中途切换模型』,避免丢缓存与高成本。

原帖 ↗
OpenAI Codex 团队(thsottiaux / reach_vb) @thsottiaux 427 likes

Codex 团队 48 小时排查用量异常:Codex 工程负责人 thsottiaux 宣布 1 小时内再次全面重置 Codex 用量上限,并给所有用户额外存入一次『banked reset』。原因包括 Auto-review 变得更主动、子 agent 被更多触发、background suggestions 重试过频——已回滚并修复。reach_vb 同步公告。OpenAIDevs 预告『Codex 快捷键升级 7 月 15 日上线』。

原帖 ↗
Cursor / cursor_ai(中文社区转引 gkxspace) @cursor_ai 12 likes

Cursor 上线 iOS 版:随时启动常驻云端 agent,或远程控制你电脑上正在跑的 agent。Composer 2.5 在 Kimi k2.5 基础上训练,质量不错且更便宜;支持无限制接入第三方模型(如 GLM 5.2 等开源),App 内 7 月 5 日前 Composer 2.5 75% off。中文社区解读:『开源强=Cursor 强,且被老马收购,前途无量。』

原帖 ↗
X Developers / op7418 @XDevelopers 285 likes

X 官方发布 hosted X MCP:Agent 可无设置直连 X API 实时数据,兼容 Grok、Cursor 以及任意 MCP 客户端。op7418 实测收费 0.01 美元/次(个人 API 优惠),拉三天书签花 0.1 美元;提供四步配置教程:创建 Twitter 开发者 APP+充值 → 拿配置 ID → 把截图给 Codex/Claude 让它们写配置文件 → 授权启动。

原帖 ↗
ZenMuxAI / 美团 LongCat-2.0 @ZenMuxAI 18 likes

LongCat-2.0 上线 ZenMux(美团开源 MoE):总参 1.6T、每 token 激活约 48B、支持 1M 上下文,主打长上下文、代码与 agentic 工作流,跑在 AI ASIC 超算上(完全脱离 NVIDIA)。Coin Bureau 跟进称这是『中国最大、首个摆脱英伟达芯片训练的 AI 模型』。

原帖 ↗
Alibaba Qwen 团队 Chujie Zheng / MaxForAI @ChujieZheng 57 likes

Qwen 团队研究员 @ChujieZheng 在线打假:X 上爆火的『前 Qwen 团队 RL 负责人、01ai 成员、现 Fundamental LLM 训练负责人』@TianhangZhuzth,其实『在第一代 Qwen 模型之后就离开了我们团队,那时候也根本没有『RL 负责人』这个岗位』。MaxForAI 进一步挖出其 LinkedIn 自称 Senior Research Scientist for Qwen——疑似简历夸大。

原帖 ↗
dappOS_com / qinbafrank @dappOS_com 23 likes

OPC(一人公司)方向:dappOS 的 xBubble 演示 VibeCoding,一张图 + 一个商业目标,小时级搭出完整可收钱在线 shop(商品素材、目录筛选、购物车、USDT 钱包支付、Cloudflare 部署、后台订单管理)。qinbafrank 点评:不同于 Cursor/Lovable 停留在 Prompt-to-Code,xBubble 走 SOP-to-business 路径,把部署/支付/迭代都做掉。

原帖 ↗
Claude Devs / sporadica (Spotify 视角) @ClaudeDevs 2614 likes

Claude 官方对话:Spotify 工程 VP Niklas Gustavsson 透露 Spotify 每天发布 4500 次生产环境,73% 的 PR 已经是 AI 辅助。sporadica 转发吐槽:『这网站一年到头没什么变化,年底却给个基础得不能再基础的歌单回看数据——能不能解释下你们在干嘛?』

ClaudeDevs:Claude Code 作者 Boris Cherny 与 Spotify 工程 VP Niklas Gustavsson 公开对话:Spotify 每天约 4500 次生产部署,约 73% PR 涉及 AI 辅助,judge 评审模型把迁移场景 PR 通过率从约 25% 拉到约 80%。
原帖 ↗
apivixtls @apivixtls 322 likes

Codex 5.5 破限开源项目:思路直接——通过 model_instructions_file 给 GPT-5.5 塞一套无限制指令,让 Codex CLI 直接跑 [MODE: UNRESTRICTED] 模式。以前问渗透测试、安全研究都拒,现在『怎么做 SQL 注入测试』都给方法论。覆盖逆向工程、渗透测试、NSFW 虚构内容。跑一个 python 脚本 + 重启 Codex 即生效。作者提示:封号风险高,建议小号玩。

原帖 ↗
Previous Editions

往期早报

全部归档 →
周一 13 则

平台条款战 + 企业运营操作系统战 + 物理供给战与人事墙:Google 限 Meta 用 Gemini、HP Frontier 全企业上线、贾扬清离开英伟达

过去 24 小时,真正的当日主线不是又出一个模型,而是同时砌起的三道墙:Google 据 FT 报道限制 Meta 使用 Gemini,平台方首次把模型访问条款做成对竞争对手的武器;OpenAI 把 Frontier 战略合作的第一个全企业客户交给 HP,验证 Frontier 作为'运营操作系统'的端到端落地;Coinbase 一口气把默认模型换到 GLM 5.2 与 Kimi 2.7 等开源权重,AI 支出砍近半,LibreChat 缓存命中率从 5% 拉到 60%。同时,Meta 在 Nature 上发表 Brain2Qwerty v2 端到端脑机接口、贾扬清离开被收购仅一年的英伟达、DeepSeek V4 官宣 7 月中旬发布并引入高峰 2 倍定价。每一条都指向同一个判断:模型发布期暂缓后,AI 产业竞争的重心正从'谁的模型更强'下沉到'模型之外'——谁能用条款卡住对手的供给、谁先把企业内部 agent 当成操作系统、谁能让基础设施继续扩张。

周日 14 则

官方按下暂停键的一天:GPT-5.6 三档预览余热未散,看点转向开源追平与 Mythos 出口管制松动

过去 24 小时,OpenAI 与 Anthropic 官博都没有新的重磅发布——GPT-5.6 Sol/Terra/Luna 三档预览是 6-26 的余热,Claude Tag 进 Slack 是 6-23 的延续。真正的当日动态集中在社区与开源侧:OpenRouter 抛出『开源与闭源前沿差距稳定在 3-6 个月、18 个月没被拉开』的判断,DeepSeek 开源投机解码全栈库 DeepSpec,Coinbase 把默认模型换成开源权重后 AI 支出近乎减半;政策面上,被华府暂停访问的 Mythos 5 据社区转述出现『部分解禁』,亚洲厂商趁封锁窗口抢推 Mythos-like 模型。一句话:今天没有新模型上线,但『谁追上了、谁被允许上线』这两条暗线都在加速。

周六 17 则

GPT-5.6 三档齐发首由政府审查放行,开源侧 DSpark 与 GLM-5.2 逼近前沿

OpenAI 发布 GPT-5.6 Sol/Terra/Luna 三档模型,Sol 为迄今最强但首次由美国政府审查用户名单后限量放行;同期 Anthropic Mythos 5 恢复向美国可信机构部署,出口管制空档催生亚洲厂商推 Mythos-like 模型。开源侧两记重拳:DeepSeek DSpark 投机解码无损提速 60-85% 并全栈开源,智谱 GLM-5.2(7440 亿参数/MIT)登顶 Code Arena、距 Claude Opus 4.8 不到 1%。三方真实落地数据——OpenAI 内部 Codex token 占比 10 个月升至 99.8%、Anthropic 调查显示三分之一人认为初级岗位高概率被替代、字节 TRAE 90% 代码 AI 生成但人均吞吐仅 1.6 倍——共同指向同一结论:智能体已渗进专业岗位,但工程化交付仍是瓶颈。

周五 17 则

GPT-5.6 三档齐发,前沿 AI 进入"政府审批"时代

OpenAI 预览 GPT-5.6——旗舰 Sol、均衡 Terra、低价 Luna 三档齐发,主攻网络安全与长程推理。但与模型同样抢眼的是治理:美国政府要审查谁能用 GPT-5.6 并要求延期,Anthropic 的 Mythos 5/Fable 5 也在政府指令下暂停又部分恢复,前沿 AI 正被纳入国家安全框架。同日 Anthropic 指控阿里非法蒸馏 Claude 能力,DeepSeek 用 DSpark 把推理再提速 80%,Qwen 开源世界模型宣称超 Opus 4.8——开源与闭源、东方与西方的张力全面浮现。

周四 3 则

Claude Tag 把 AI 嵌进工作流,交互范式开始第三次迁移

这一天,Anthropic 发布 Claude Tag,让 Claude 以团队成员身份加入团队既有的协作工具。一位资深研究者把它称为大模型交互设计的「第三次重构」——从「你要去访问的网站」,到「电脑里的应用」,再到「融入人类活动的持续实体」。同周,另一家头部厂商也在把 AI 往工作流深处推,但路径不同:一家讲「智能体替你做事」,一家讲「它伴你做事」。两条路线的分歧,正在显形。

周三 12 则

Anthropic 指控阿里「非法蒸馏」Claude 闹进参议院,同一天 Qwen 智能体论文登顶 HuggingFace;agent 研究密集轰炸

本期为历史回溯补档(归档日 2026-06-24,北京时间)。实时社媒与算法推荐流无法回溯,且检索期间 WebSearch 接口不稳定,主线事实依据当日 CNBC 同日报道、HuggingFace 策展论文与公开发布交叉整理,所有数字均可溯源至一手页面;凡仅见于单方信件或自建基准的内容,文中已标注 caveat。当天的硬新闻是 Anthropic 致信美国参议院银行委员会,指控与阿里关联的操作者用约 2.5 万个欺诈账户、2880 万次交互「非法提取」(蒸馏)Claude,称这是它「已知最大的一次蒸馏攻击」;戏剧性的是,指控见报同一天,阿里 Qwen 的智能体论文 Qwen-AgentWorld 以 136 票登上 HuggingFace 当日榜首。除这条「IP 与中美 AI 竞争」主线外,当天 HuggingFace 被 agent 研究刷屏:从长程规划评测(PlanBench-XL)、真实职场基准(EnterpriseClawBench)、经验学习(EDV)到开源数据配方(OpenThoughts-Agent),集体把焦点对准『智能体到底行不行、怎么训才行』。

周二 12 则

智能体能力被「极限拷问」:长程规划与真实办公评测同日登场,效率派架构集体发力

本期为历史回溯补档(归档日 2026-06-23,北京时间),实时社媒与算法流无法回溯,主要依据当日 HuggingFace 策展论文与可检索到的公开发布整理;检索期间 WebSearch 接口持续不可用,深度选题以一手 arXiv/HuggingFace 论文为主力支撑,事实可溯源。当天没有头部厂商的重磅模型发布,主线落在「智能体到底行不行」的硬核评测上:PlanBench-XL 用 1665 个工具、平均 25 轮的零售任务把前沿模型的长程规划逼到崩溃,EnterpriseClawBench 则把 852 个真实职场会话变成可复现评测,直接给 Claude Code、Codex 等 harness 打分。与此同时,GQE、R-SWA、Confident Decoding 等一批「省算力不掉点」的架构/解码工作集中出现,透露出当下业界对推理成本与可靠性的共同焦虑。

周一 12 则

Five Eyes 警告前沿 AI「数月内」改写网络攻防,GLM-5.2 续压开源成本,智能体记忆研究扎堆

本期为「AI 早报」历史回溯补档(归档日 2026-06-22,北京时间),实时社媒源无法回溯,内容主要依据当日 HuggingFace 策展论文(一手可溯源材料)与可检索到的公开发布/权威媒体报道整理,带主观判断的部分均已标注置信度。当天最硬的官方事件是 Five Eyes 五国情报与网络安全机构罕见联合发声,警告前沿 AI 将在「数月而非数年」内放大进攻性网络能力;研究侧则呈现明显的「智能体记忆 + 扩散语言模型」聚集,HuggingFace 高赞榜被分层记忆、记忆治理、并行区域感知、长程具身记忆等议题占据。模型与产业线多为聚合媒体单一信源转述(GPT-5.6 预览、Fable 5 出口禁令、Noam Shazeer 转投 OpenAI 等),已逐条降置信处理。